Перейти к основному содержимому

Обзор

Runtime MetaHuman Lip Sync Documentation

Runtime MetaHuman Lip Sync — это плагин, который обеспечивает синхронизацию губ в реальном времени, офлайн и на разных платформах как для персонажей MetaHuman, так и для пользовательских персонажей. Он позволяет анимировать губы персонажа в ответ на аудиовход из различных источников, включая:

Плагин внутренне генерирует виземы (визуальные представления фонем) на основе аудиовхода. Поскольку он работает напрямую с аудиоданными, а не с текстом, плагин поддерживает многоязычный ввод, включая, помимо прочего, английский, испанский, французский, немецкий, японский, китайский, корейский, русский, итальянский, португальский, арабский и хинди. Буквально любой язык поддерживается, так как синхронизация губ генерируется из аудиофонем, а не на основе языковой обработки текста.

Standard Model производит 14 визем и выполняет анимацию синхронизации губ с использованием предварительно заданного pose asset. В отличие от этого, Realistic Models (эксклюзивно для персонажей на основе MetaHuman и ARKit) генерируют 81 изменение лицевого контроля без использования предварительно заданного pose asset, что приводит к значительно более реалистичной лицевой анимации.

Совместимость с персонажами

Несмотря на своё название, Runtime MetaHuman Lip Sync работает с широким спектром персонажей, не ограничиваясь только MetaHuman:

Популярные коммерческие системы персонажей

  • Daz Genesis 8/9 персонажи
  • Reallusion Character Creator 3/4 (CC3/CC4) персонажи
  • Mixamo персонажи
  • ReadyPlayerMe аватары

Поддержка анимационных стандартов

  • Системы блендшейпов на основе FACS
  • Стандарт блендшейпов Apple ARKit
  • Наборы фонем Preston Blair
  • Системы фонем 3ds Max
  • Любой персонаж с пользовательскими морф-таргетами для лицевой анимации

Для подробных инструкций по использованию плагина с персонажами, не являющимися MetaHuman, смотрите Руководство по настройке пользовательских персонажей.

Предпросмотр анимации

Посмотрите эти короткие анимации, чтобы увидеть качество анимации синхронизации губ, создаваемой плагином для различных типов персонажей и моделей:

Реалистичная модель с персонажем MetaHuman
Стандартная модель с персонажем MetaHuman
Стандартная модель с пользовательским персонажем
Стандартная модель с пользовательским персонажем

Ключевые возможности

  • Синхронизация губ в реальном времени с микрофонного входа
  • Поддержка офлайн-обработки аудио
  • Кроссплатформенная совместимость с поддержкой платформ в зависимости от модели
  • Поддержка различных систем персонажей и стандартов анимации
  • Гибкое сопоставление визем для пользовательских персонажей
  • Поддержка всех языков - работает с любым разговорным языком через анализ аудио
  • Анимация лица с учетом настроения для улучшенной выразительности
  • Настраиваемые типы вывода (управление всем лицом или только ртом)

Модели синхронизации губ

Плагин предлагает несколько моделей синхронизации губ для удовлетворения различных потребностей проекта:

Стандартная модель синхронизации губ обеспечивает эффективную кроссплатформенную производительность с широкой совместимостью персонажей:

  • Работает с MetaHuman и всеми типами пользовательских персонажей
  • Оптимизирована для работы в реальном времени
  • Более низкие требования к ресурсам
  • Поддержка платформ: Windows, Android, платформы на базе Android (включая Meta Quest)
Требуется расширение плагина

Чтобы использовать Standard Model, вам необходимо установить дополнительный плагин-расширение. См. раздел Предварительные требования для инструкций по установке.

Вы можете выбрать подходящую модель в зависимости от требований вашего проекта по производительности, совместимости с персонажами, визуальному качеству, целевой платформе и необходимым функциям.

Как это работает

Плагин обрабатывает аудиовход следующим образом:

  1. Аудиоданные поступают в формате float PCM с заданными каналами и частотой дискретизации
  2. Плагин обрабатывает аудио для генерации данных управления мимикой или визем в зависимости от модели
  3. Для моделей с настроением эмоциональный контекст применяется к лицевой анимации
  4. Данные анимации управляют движениями лица персонажа в реальном времени

Архитектура производительности

Runtime MetaHuman Lip Sync использует только CPU-вывод для получения стабильных результатов синхронизации губ с низкой задержкой, подходящих для приложений реального времени. По умолчанию плагин выполняет синхронизацию губ каждые 10 миллисекунд (настраивается - см. Конфигурация плагина для всех доступных настроек, включая Processing Chunk Size, thread count и другие параметры производительности).

Обзор архитектуры модели

Модели синхронизации губ используют компактную нейронную сеть на основе трансформера, которая обрабатывает аудио с помощью анализа мел-спектрограммы. Эта легковесная архитектура специально разработана для работы в реальном времени с эффективным CPU-выводом и минимальным использованием памяти.

Почему CPU-вывод?

Для небольших частых операций вывода, таких как синхронизация губ в реальном времени, обработка на CPU обеспечивает лучшие характеристики задержки, чем на GPU. При размере пакета 1 и интервалах вывода 10-100 мс накладные расходы GPU от передач по PCIe и запусков ядер часто превышают фактическое время вычислений. Кроме того, в игровых движках GPU уже нагружен рендерингом, шейдерами и физикой, что создает конкуренцию за ресурсы и приводит к непредсказуемым скачкам задержки.

Совместимость с оборудованием

Плагин эффективно работает на большинстве процессоров среднего и высокого уровня без необходимости в выделенном графическом оборудовании, обеспечивая производительность в реальном времени на настольных, мобильных и VR платформах. Для более слабого оборудования вы можете изменить Model Type на Semi-Optimized или Highly Optimized, или увеличить Processing Chunk Size, чтобы поддерживать производительность в реальном времени с немного уменьшенной отзывчивостью.

Быстрый старт

Вот базовая настройка для включения синхронизации губ на вашем персонаже:

  1. Для персонажей MetaHuman следуйте руководству по настройке
  2. Для пользовательских персонажей следуйте руководству по настройке пользовательских персонажей
  3. Выберите и настройте предпочитаемую модель синхронизации губ
  4. Настройте обработку аудиовхода в вашем Blueprint
  5. Подключите соответствующий узел синхронизации губ в Animation Blueprint
  6. Воспроизведите аудио и смотрите, как ваш персонаж говорит с эмоциями!

Дополнительные ресурсы

📦 Загрузки и ссылки

Демо-проекты:

Доступны два готовых демо-проекта - см. выделенную страницу Демо-проекты для полной информации, загрузок и пошаговых руководств:

Обе демонстрации кроссплатформенные (Windows, Mac, Linux, iOS, Android, Meta Quest) и поставляются в виде упакованных сборок и полных исходных проектов для UE 5.6+.

🎥 Видеоуроки

Избранные демонстрации:

Уроки по Realistic Model (высокое качество):

Уроки по Standard Model:

Общая настройка:

💬 Поддержка

  • Разработка под заказ: [email protected] (индивидуальные решения для команд и организаций)
Join our Discord
online · support