Обзор

Runtime MetaHuman Lip Sync — это плагин, который обеспечивает синхронизацию губ в реальном времени, офлайн и на кроссплатформенной основе как для MetaHuman, так и для пользовательских персонажей. Он позволяет анимировать губы персонажа в ответ на аудиовход из различных источников, включая:
- Вход с микрофона через захватываемую звуковую волну плагина Runtime Audio Importer
- Синтезированную речь из Runtime Text To Speech или Runtime AI Chatbot Integrator
- Потоковые или импортированные аудиоданные в нескольких форматах через Runtime Audio Importer
- Любые аудиоданные в формате float PCM (массив сэмплов с плавающей запятой)
Плагин внутренне генерирует виземы (визуальные представления фонем) на основе аудиовхода. Поскольку он работает напрямую с аудиоданными, а не с текстом, плагин поддерживает многоязычный ввод, включая, но не ограничиваясь: английским, испанским, французским, немецким, японским, китайским, корейским, русским, итальянским, португальским, арабским и хинди. Фактически поддерживается любой язык, так как синхронизация губ генерируется из аудиофонем, а не из обработки текста, специфичной для языка.
Стандартная модель производит 14 визем и выполняет анимацию синхронизации губ с использованием предопределенного ассета поз. В отличие от нее, Реалистичные модели (эксклюзивно для персонажей MetaHuman) генерируют 81 изменение лицевого контроля без использования предопределенного ассета поз, что приводит к значительно более реалистичной мимике.
Совместимость с персонажами
Несмотря на название, Runtime MetaHuman Lip Sync работает с широким спектром персонажей, а не только с MetaHumans:
Популярные коммерческие системы персонажей
- Персонажи Daz Genesis 8/9
- Персонажи Reallusion Character Creator 3/4 (CC3/CC4)
- Персонажи Mixamo
- Аватары ReadyPlayerMe
Поддержка стандартов анимации
- Системы блендшейпов на основе FACS
- Стандарт блендшейпов Apple ARKit
- Наборы фонем Preston Blair
- Фонемные системы 3ds Max
- Любой персонаж с пользовательскими морф-таргетами для мимики
Подробные инструкции по использованию плагина с персонажами, не являющимися MetaHuman, см. в Руководстве по настройке пользовательских персонажей.
Предпросмотр анимации
Ознакомьтесь с этими короткими анимациями, чтобы увидеть качество анимации синхронизации губ, создаваемой плагином для различных типов персонажей и моделей:




Ключевые особенности
- Синхронизация губ в реальном времени с микрофонного ввода
- Поддержка офлайн-обработки аудио
- Кроссплатформенная совместимость с поддержкой платформ для конкретных моделей
- Поддержка нескольких систем персонажей и стандартов анимации
- Гибкое сопоставление виземов для пользовательских персонажей
- Универсальная поддержка языков — работает с любым разговорным языком через анализ аудио
- Лицевая анимация с учетом настроения для повышения выразительности
- Настраиваемые типы вывода (полное лицо или только управление ртом)
Модели синхронизации губ
Плагин предлагает несколько моделей синхронизации губ для различных потребностей проекта:
- Стандартная модель
- Реалистичная модель
- Реалистичная модель с поддержкой настроения
Стандартная модель синхронизации губ обеспечивает эффективную, кроссплатформенную производительность с широкой совместимостью персонажей:
- Работает с MetaHumans и всеми типами пользовательских персонажей
- Оптимизирована для производительности в реальном времени
- Меньшие требования к ресурсам
- Полная совместимость с локальным TTS (плагин Runtime Text To Speech)
- Поддержка платформ: Windows, Android, платформы на базе Android (включая Meta Quest)
Для использования Стандартной модели необходимо установить дополнительный расширяющий плагин. См. раздел Предварительные требования для инструкций по установке.
Реалистичная модель синхронизации губ обеспечивает повышенную визуальную точность, специально для персонажей MetaHuman:
- Совместима с MetaHuman и персонажами на базе ARKit с расширенной лицевой анимацией (81 лицевой контроль)
- Более высокое визуальное качество с более естественными движениями рта
- Немного более высокие требования к производительности
- Ограниченная поддержка локального TTS (рекомендуются внешние TTS-сервисы)
- Идеальна для кинематографических сцен и взаимодействий с персонажами крупным планом
- Поддержка платформ: Windows, Mac, iOS, Linux, Android, платформы на базе Android (включая Meta Quest)
- Три уровня оптимизации: Original, Semi-Optimized и Highly Optimized
- Настраиваемые наборы морф-таргетов (см. Выбор набора морф-таргетов)
Реалистичная модель включена в основной плагин и не требует дополнительных расширений для использования.
Реалистичная модель с поддержкой настроения обеспечивает лицевую анимацию с учетом эмоций для персонажей MetaHuman:
- Совместима с MetaHuman и персонажами на базе ARKit с настроенно-чувствительной лицевой анимацией
- 12 различных типов настроения (Neutral, Happy, Sad, Confident и т.д.)
- Настраиваемая интенсивность настроения (от 0.0 до 1.0)
- Настраиваемое время упреждения для улучшенной синхронизации (от 20 мс до 200 мс)
- Выбираемые типы вывода: Full Face или Mouth Only controls
- Потоковая обработка аудио для приложений реального времени
- Настраиваемые наборы морф-таргетов (см. Выбор набора морф-таргетов)
- Поддержка платформ: Windows, Mac, iOS, Linux, Android, платформы на базе Android (включая Meta Quest)
Модель с поддержкой настроения включает расширенные функции, такие как настраиваемое время упреждения и выборочный вывод управления, что делает её идеальной для приложений, требующих контроля эмоциональной выразительности.
Вы можете выбрать подходящую модель в зависимости от требований вашего проекта к производительности, совместимости персонажей, визуальному качеству, целевой платформе и потребностям в функциях.
Хотя все модели поддерживают различные методы ввода аудио, обычная Реалистичная модель имеет ограниченную совместимость с локальным TTS из-за конфликтов рантайма ONNX. Однако Реалистичная модель с поддержкой настроения полностью совместима с локальным TTS. Для функциональности преобразования текста в речь:
- Стандартная модель: Совместима со всеми вариантами TTS (локальными и внешними)
- Реалистичная модель: Рекомендуются внешние TTS-сервисы (OpenAI, ElevenLabs)
- Реалистичная модель с поддержкой настроения: Совместима со всеми вариантами TTS (локальными и внешними)
Как это работает
Плагин обрабатывает аудиовход следующим образом:
- Аудиоданные принимаются в формате PCM с плавающей запятой с указанными каналами и частотой дискретизации
- Плагин обрабатывает аудио для генерации данных лицевого управления или виземов в зависимости от модели
- Для моделей с поддержкой настроения эмоциональный контекст применяется к лицевой анимации
- Данные анимации управляют движениями лица персонажа в реальном времени
Архитектура производительности
Runtime MetaHuman Lip Sync использует только CPU-инференс для обеспечения стабильных результатов синхронизации губ с низкой задержкой, подходящих для приложений реального времени. По умолчанию плагин выполняет обработку синхронизации губ каждые 10 миллисекунд (настраивается — см. Конфигурация плагина для всех доступных настроек, включая Размер чанка обработки, количество потоков и другие параметры производительности).
Обзор архитектуры модели
Модели синхронизации губ используют компактную нейронную сеть на основе трансформера, которая обрабатывает аудио через анализ мел-спектрограмм. Эта легковесная архитектура специально разработана для производительности в реальном времени с эффективным CPU-инференсом и минимальным потреблением памяти.
Почему CPU-инференс?
Для небольших, частых операций инференса, таких как синхронизация губ в реальном времени, обработка на CPU обеспечивает лучшие характеристики задержки, чем GPU. При размере пакета 1 и интервалах инференса 10-100 мс накладные расходы GPU от передач по PCIe и запусков ядра часто превышают фактическое время вычислений. Кроме того, в игровых движках GPU уже загружен рендерингом, шейдерами и физикой, создавая конкуренцию за ресурсы, которая приводит к непредсказуемым скачкам задержки.
Совместимость с оборудованием
Плагин эффективно работает на большинстве CPU среднего и высокого уровня, не требуя выделенного графического оборудования, обеспечивая производительность в реальном времени на настольных, мобильных и VR-платформах. Для более слабого оборудования вы можете изменить Тип модели на Semi-Optimized или Highly Optimized или увеличить Размер чанка обработки, чтобы сохранить производительность в реальном времени с немного сниженной отзывчивостью.
Быстрый старт
Вот базовая настройка для включения синхронизации губ на вашем персонаже:
- Для персонажей MetaHuman следуйте Руководству по настройке
- Для пользовательских персонажей следуйте Руководству по настройке пользовательских персонажей
- Выберите и настройте предпочитаемую модель синхронизации губ
- Настройте обработку аудиоввода в вашем Blueprint
- Подключите соответствующий узел синхронизации губ в Animation Blueprint
- Воспроизведите аудио и наблюдайте, как ваш персонаж говорит с эмоциями!
Дополнительные ресурсы
📦 Загрузки и ссылки
Демо-проекты:
- Демо Speech-to-Speech (Полный AI-воркфлоу):
- Скачать собранную демо (Windows) ⭐ НОВОЕ
- Скачать исходные файлы (UE 5.6) ⭐ НОВОЕ
- Полный воркфлоу: распознавание речи + AI-чатбот + TTS + синхронизация губ
- Требуется: Этот плагин + Runtime Audio Importer + Runtime Speech Recognizer + Runtime AI Chatbot Integrator, опционально: Runtime Text To Speech
- Базовая демо синхронизации губ:
- Скачать собранную демо (Windows)
- Скачать исходные файлы (UE 5.6)
- Базовые воркфлоу: микрофонный ввод, аудиофайлы, TTS
- Требуется: Этот плагин + Runtime Audio Importer, опционально: Text To Speech / AI Chatbot
- Стандартная модель требует небольшого расширяющего плагина (см. здесь)
🎥 Видеоуроки
Избранные демо:
Уроки по Реалистичной модели (Высокое качество):
- Синхронизация губ высокого качества с контролем настроения и локальным TTS
- Синхронизация губ высокого качества с ElevenLabs и OpenAI TTS
- Синхронизация губ высокого качества с живым микрофоном
Уроки по Стандартной модели:
- Стандартная синхронизация губ с живым микрофоном
- Стандартная синхронизация губ с локальным преобразованием текста в речь
- Стандартная синхронизация губ с ElevenLabs и OpenAI TTS
Общая настройка:
💬 Поддержка
- Сервер поддержки в Discord
- Кастомная разработка: [email protected] (индивидуальные решения для команд и организаций)