Перейти к основному содержимому

Обзор

Runtime MetaHuman Lip Sync Documentation

Runtime MetaHuman Lip Sync — это плагин, который обеспечивает синхронизацию губ в реальном времени, офлайн и кроссплатформенно как для MetaHuman, так и для пользовательских персонажей. Он позволяет анимировать губы персонажа в ответ на аудиовход из различных источников, включая:

Плагин внутренне генерирует висемы (визуальные представления фонем) на основе аудиовхода. Поскольку он работает напрямую с аудиоданными, а не с текстом, плагин поддерживает многоязычный ввод, включая, но не ограничиваясь: английским, испанским, французским, немецким, японским, китайским, корейским, русским, итальянским, португальским, арабским и хинди. Фактически, поддерживается любой язык, так как синхронизация губ генерируется из аудиофонем, а не из языко-специфичной обработки текста.

Стандартная модель производит 14 висем и выполняет анимацию синхронизации губ с использованием предопределенного ассета поз. В отличие от нее, Реалистичная модель (эксклюзивно для персонажей MetaHuman) генерирует 250 изменений морф-таргетов без использования предопределенного ассета поз, что приводит к значительно более реалистичной мимике.

Совместимость с персонажами

Несмотря на название, Runtime MetaHuman Lip Sync работает с широким спектром персонажей, а не только с MetaHumans:

Популярные коммерческие системы персонажей

  • Персонажи Daz Genesis 8/9
  • Персонажи Reallusion Character Creator 3/4 (CC3/CC4)
  • Персонажи Mixamo
  • Аватары ReadyPlayerMe

Поддержка стандартов анимации

  • Системы блендшейпов на основе FACS
  • Стандарт блендшейпов Apple ARKit
  • Наборы фонем Preston Blair
  • Фонемные системы 3ds Max
  • Любые персонажи с пользовательскими морф-таргетами для мимики

Подробные инструкции по использованию плагина с персонажами, отличными от MetaHuman, смотрите в Руководстве по настройке пользовательских персонажей.

Предпросмотр анимации

Ознакомьтесь с этими короткими анимациями, чтобы увидеть качество синхронизации губ, создаваемое плагином для различных типов персонажей и моделей:

Realistic Lip Sync Example
Реалистичная модель с персонажем MetaHuman
Standard Lip Sync Example
Стандартная модель с персонажем MetaHuman
Custom Character Lip Sync Example
Стандартная модель с пользовательским персонажем
Custom Character Lip Sync Example
Стандартная модель с пользовательским персонажем

Ключевые особенности

  • Реализация синхронизации губ в реальном времени с входного сигнала микрофона
  • Поддержка офлайн-обработки аудио
  • Кросс-платформенная совместимость с поддержкой специфичных для модели платформ
  • Поддержка нескольких систем персонажей и стандартов анимации
  • Гибкое сопоставление визем для пользовательских персонажей
  • Универсальная поддержка языков - работает с любым разговорным языком через анализ аудио

Модели синхронизации губ

Плагин предлагает две модели синхронизации губ для различных потребностей проекта:

Стандартная модель синхронизации губ обеспечивает эффективную кросс-платформенную производительность с широкой совместимостью персонажей:

  • Работает с MetaHumans и всеми типами пользовательских персонажей
  • Оптимизирована для производительности в реальном времени
  • Меньшие требования к ресурсам
  • Полная совместимость с локальным TTS (плагин Runtime Text To Speech)
  • Поддерживаемые платформы: Windows, Android, платформы на базе Android (включая Meta Quest)
Требуется дополнительный плагин

Для использования Стандартной (Более быстрой) Модели необходимо установить дополнительный плагин-расширение. Смотрите раздел Предварительные требования для инструкций по установке.

Вы можете выбрать подходящую модель в зависимости от требований вашего проекта к производительности, совместимости персонажей, визуальному качеству и целевой платформе.

Примечание по совместимости с TTS

Хотя обе модели поддерживают различные методы ввода аудио, у Реалистичной модели ограниченная совместимость с локальным TTS из-за конфликтов с рантаймом ONNX. Для функциональности преобразования текста в речь с Реалистичной моделью рекомендуются внешние TTS-сервисы (OpenAI, ElevenLabs).

Как это работает

Плагин обрабатывает входной аудиосигнал следующим образом:

  1. Аудиоданные принимаются в формате PCM с плавающей точкой с указанными каналами и частотой дискретизации
  2. Плагин обрабатывает аудио для генерации визем (фонем)
  3. Эти виземы управляют анимацией синхронизации губ с использованием Pose Asset персонажа
  4. Анимация применяется к персонажу в реальном времени

Быстрый старт

Вот базовая настройка для включения синхронизации губ на вашем персонаже:

  1. Для персонажей MetaHuman следуйте Руководству по настройке MetaHuman
  2. Для пользовательских персонажей следуйте Руководству по настройке пользовательских персонажей
  3. Настройте обработку аудиовхода (например, в Event Graph)
  4. Подключите ноду Blend Runtime MetaHuman Lip Sync в Anim Graph
  5. Воспроизведите аудио и наблюдайте, как ваш персонаж говорит!

Дополнительные ресурсы

📦 Загрузки и ссылки

🎥 Видеоуроки

Рекомендуемое демо:

Уроки по реалистичной модели (высокое качество):

Уроки по стандартной модели:

Общая настройка:

💬 Поддержка