Обзор

Runtime MetaHuman Lip Sync — это плагин, который обеспечивает синхронизацию губ в реальном времени, офлайн и кроссплатформенно как для MetaHuman, так и для пользовательских персонажей. Он позволяет анимировать губы персонажа в ответ на аудиовход из различных источников, включая:
- Вход с микрофона через захватываемую звуковую волну Runtime Audio Importer
- Синтезированную речь от Runtime Text To Speech или Runtime AI Chatbot Integrator
- Потоковые или импортированные аудиоданные в нескольких форматах через Runtime Audio Importer
- Любые аудиоданные в формате float PCM (массив сэмплов с плавающей запятой)
Плагин внутренне генерирует виземы (визуальные представления фонем) на основе аудиовхода. Поскольку он работает напрямую с аудиоданными, а не с текстом, плагин поддерживает многоязычный ввод, включая, но не ограничиваясь: английским, испанским, французским, немецким, японским, китайским, корейским, русским, итальянским, португальским, арабским и хинди. Фактически поддерживается любой язык, так как синхронизация губ генерируется из аудиофонем, а не из обработки текста, специфичной для языка.
Стандартная модель производит 14 визем и выполняет анимацию синхронизации губ с использованием предопределенного ассета поз. В отличие от нее, Реалистичные модели (эксклюзивно для персонажей MetaHuman) генерируют 81 изменение лицевого контроля без использования предопределенного ассета поз, что приводит к значительно более реалистичной лицевой анимации.
Совместимость с персонажами
Несмотря на название, Runtime MetaHuman Lip Sync работает с широким спектром персонажей, а не только с MetaHumans:
Популярные коммерческие системы персонажей
- Персонажи Daz Genesis 8/9
- Персонажи Reallusion Character Creator 3/4 (CC3/CC4)
- Персонажи Mixamo
- Аватары ReadyPlayerMe
Поддержка стандартов анимации
- Системы блендшейпов на основе FACS
- Стандарт блендшейпов Apple ARKit
- Наборы фонем Preston Blair
- Системы фонем 3ds Max
- Любой персонаж с пользовательскими морф-таргетами для мимики
Подробные инструкции по использованию плагина с персонажами, не являющимися MetaHuman, см. в Руководстве по настройке пользовательских персонажей.
Предпросмотр анимации
Ознакомьтесь с этими короткими анимациями, чтобы увидеть качество анимации синхронизации губ, создаваемой плагином для различных типов персонажей и моделей:
Ключевые особенности
- Синхронизация губ в реальном времени с микрофонного ввода
- Поддержка обработки аудио офлайн
- Кроссплатформенная совместимость с поддержкой платформ для конкретных моделей
- Поддержка нескольких систем персонажей и стандартов анимации
- Гибкое сопоставление визем для пользовательских персонажей
- Универсальная поддержка языков — работает с любым разговорным языком через анализ аудио
- Анимация лица с учетом настроения для большей выразительности
- Настраиваемые типы вывода (полное лицо или только управление ртом)
Модели синхронизации губ
Плагин предлагает несколько моделей синхронизации губ для различных потребностей проекта:
- Стандартная модель
- Реалистичная модель
- Реалистичная модель с поддержкой настроения
Стандартная модель синхронизации губ обеспечивает эффективную, кроссплатформенную производительность с широкой совместимостью персонажей:
- Работает с MetaHumans и всеми типами пользовательских персонажей
- Оптимизирована для производительности в реальном времени
- Меньшие требования к ресурсам
- Поддержка платформ: Windows, Android, платформы на базе Android (включая Meta Quest)
Для использования Стандартной модели необходимо установить дополнительный плагин-расширение. См. раздел Предварительные требования для инструкций по установке.
Реалистичная модель синхронизации губ обеспечивает повышенную визуальную точность, специально для персонажей MetaHuman:
- Совместима с MetaHuman и персонажами на базе ARKit с расширенной лицевой анимацией (81 лицевой контроль)
- Более высокое визуальное качество с более естественными движениями рта
- Немного более высокие требования к производительности
- Потоковая обработка аудио для приложений реального времени
- Идеально для кинематографических сцен и взаимодействий с персонажами крупным планом
- Три уровня оптимизации: Оригинальный, Полуоптимизированный и Высокооптимизированный
- Настраиваемые наборы морф-таргетов (см. Выбор набора морф-таргетов)
- Поддержка платформ: Windows, Mac, iOS, Linux, Android, платформы на базе Android (включая Meta Quest)
Реалистичная модель включена в основной плагин и не требует дополнительных расширений для использования.
Реалистичная модель с поддержкой настроения обеспечивает лицевую анимацию, учитывающую эмоции, для персонажей MetaHuman:
- Совместима с MetaHuman и персонажами на базе ARKit с настроенно-зависимой лицевой анимацией (81 лицевой контроль)
- 12 различных типов настроения (Нейтральное, Счастливое, Грустное, Уверенное и т.д.)
- Настраиваемая интенсивность настроения (от 0.0 до 1.0)
- Настраиваемое время упреждения для улучшенной синхронизации (от 20 мс до 200 мс)
- Выбираемые типы вывода: Полное лицо или только управление ртом
- Потоковая обработка аудио для приложений реального времени
- Настраиваемые наборы морф-таргетов (см. Выбор набора морф-таргетов)
- Поддержка платформ: Windows, Mac, iOS, Linux, Android, платформы на базе Android (включая Meta Quest)
Реалистичная модель с поддержкой настроения включена в основной плагин и не требует дополнительных расширений для использования.
Вы можете выбрать подходящую модель в зависимости от требований вашего проекта к производительности, совместимости персонажей, визуальному качеству, целевой платформе и необходимым функциям.
Как это работает
Плагин обрабатывает аудиовход следующим образом:
- Аудиоданные принимаются в формате PCM с плавающей запятой с указанными каналами и частотой дискретизации
- Плагин обрабатывает аудио для генерации данных управления лицом или визем в зависимости от модели
- Для моделей с поддержкой настроения эмоциональный контекст применяется к лицевой анимации
- Данные анимации управляют движениями лица персонажа в реальном времени
Архитектура производительности
Runtime MetaHuman Lip Sync использует только CPU-инференс для обеспечения стабильных результатов синхронизации губ с низкой задержкой, подходящих для приложений реального времени. По умолчанию плагин выполняет обработку синхронизации губ каждые 10 миллисекунд (настраивается — см. Конфигурация плагина для всех доступных настроек, включая Размер обрабатываемого чанка, количество потоков и другие параметры производительности).
Обзор архитектуры модели
Модели синхронизации губ используют компактную нейронную сеть на основе трансформера, которая обрабатывает аудио через анализ мел-спектрограммы. Эта легковесная архитектура специально разработана для производительности в реальном времени с эффективным CPU-инференсом и минимальным использованием памяти.
Почему CPU-инференс?
Для небольших, частых операций инференса, таких как синхронизация губ в реальном времени, обработка на CPU обеспечивает лучшие характеристики задержки, чем GPU. При размере пакета 1 и интервалах инференса 10-100 мс накладные расходы GPU от передач по PCIe и запусков ядер часто превышают фактическое время вычислений. Кроме того, в игровых движках GPU уже загружен рендерингом, шейдерами и физикой, что создает конкуренцию за ресурсы и приводит к непредсказуемым скачкам задержки.
Совместимость с оборудованием
Плагин эффективно работает на большинстве CPU среднего и высокого уровня, не требуя выделенного графического оборудования, обеспечивая производительность в реальном времени на настольных, мобильных и VR-платформах. Для более слабого оборудования вы можете изменить Тип модели на Полуоптимизированный или Высокооптимизированный, или увеличить Размер обрабатываемого чанка, чтобы сохранить производительность в реальном времени с немного сниженной отзывчивостью.
Быстрый старт
Вот базовая настройка для включения синхронизации губ на вашем персонаже:
- Для персонажей MetaHuman следуйте Руководству по настройке
- Для пользовательских персонажей следуйте Руководству по настройке пользовательского персонажа
- Выберите и настройте предпочитаемую модель синхронизации губ
- Настройте обработку аудиовхода в вашем Blueprint
- Подключите соответствующий узел синхронизации губ в Animation Blueprint
- Воспроизведите аудио и наблюдайте, как ваш персонаж говорит с эмоциями!
Дополнительные ресурсы
📦 Загрузки и ссылки
Демо-проекты:
- Демо "Речь-в-речь" (Полный AI-воркфлоу):
- Скачать собранную демо (Windows) ⭐ НОВОЕ
- Скачать исходные файлы (UE 5.6+) ⭐ НОВОЕ
- Полный воркфлоу: распознавание речи + AI-чатбот + TTS + синхронизация губ
- Требуется: Этот плагин + Runtime Audio Importer + Runtime Speech Recognizer + Runtime AI Chatbot Integrator, опционально: Runtime Text To Speech
- Базовая демо синхронизации губ:
- Скачать собранную демо (Windows)
- Скачать исходные файлы (UE 5.6+)
- Базовые воркфлоу: микрофонный ввод, аудиофайлы, TTS
- Требуется: Этот плагин + Runtime Audio Importer, опционально: Text To Speech / AI Chatbot
- Стандартная модель требует небольшого плагина-расширения (см. здесь)
🎥 Видеоуроки
Избранные демо:
Уроки по реалистичной модели (высокое качество):
- Синхронизация губ высокого качества с контролем настроения и локальным TTS
- Синхронизация губ высокого качества с ElevenLabs и OpenAI TTS
- Синхронизация губ высокого качества с живым микрофоном
Уроки по стандартной модели:
- Стандартная синхронизация губ с живым микрофоном
- Стандартная синхронизация губ с локальным преобразованием текста в речь
- Стандартная синхронизация губ с ElevenLabs и OpenAI TTS
Общая настройка:
💬 Поддержка
- Сервер поддержки в Discord
- Кастомная разработка: [email protected] (индивидуальные решения для команд и организаций)