Обзор
Runtime MetaHuman Lip Sync — это плагин, который обеспечивает синхронизацию губ в реальном времени, офлайн и кроссплатформенно как для MetaHuman, так и для пользовательских персонажей. Он позволяет анимировать губы персонажа в ответ на аудиовход из различных источников, включая:
- Вход с микрофона через захватываемую звуковую волну от Runtime Audio Importer
- Синтезированную речь от Runtime Text To Speech или Runtime AI Chatbot Integrator
- Любые аудиоданные в формате float PCM (массив семплов с плавающей запятой)
Плагин внутренне генерирует висемы (визуальные представления фонем) на основе аудиовхода. Поскольку он работает напрямую с аудиоданными, а не с текстом, плагин поддерживает многоязычный ввод, включая, но не ограничиваясь: английским, испанским, французским, немецким, японским, китайским, корейским, русским, итальянским, португальским, арабским и хинди. Фактически поддерживается любой язык, так как синхронизация губ генерируется из аудиофонем, а не из обработки текста, специфичного для языка.
Стандартная модель производит 14 висем и выполняет анимацию синхронизации губ с использованием предопределенного ассета поз. В отличие от нее, Реалистичные модели (эксклюзивно для персонажей MetaHuman) генерируют 81 изменение лицевого контроля без использования предопределенного ассета поз, что приводит к значительно более реалистичной лицевой анимации.
Совместимость с персонажами
Несмотря на название, Runtime MetaHuman Lip Sync работает с широким спектром персонажей, а не только с MetaHumans:
Популярные коммерческие системы персонажей
- Персонажи Daz Genesis 8/9
- Персонажи Reallusion Character Creator 3/4 (CC3/CC4)
- Персонажи Mixamo
- Аватары ReadyPlayerMe
Поддержка стандартов анимации
- Системы блендшейпов на основе FACS
- Стандарт блендшейпов Apple ARKit
- Наборы фонем Preston Blair
- Фонемные системы 3ds Max
- Любой персонаж с пользовательскими морф-таргетами для лицевых выражений
Подробные инструкции по использованию плагина с персонажами, не являющимися MetaHuman, смотрите в Руководстве по настройке пользовательских персонажей.
Предпросмотр анимации
Ознакомьтесь с этими короткими анимациями, чтобы увидеть качество анимации синхронизации губ, создаваемой плагином для различных типов персонажей и моделей:




Ключевые особенности
- Синхронизация губ в реальном времени с входного сигнала микрофона
- Поддержка обработки аудио в автономном режиме
- Кросс-платформенная совместимость с поддержкой платформ, специфичных для модели
- Поддержка нескольких систем персонажей и стандартов анимации
- Гибкое сопоставление визем для пользовательских персонажей
- Универсальная поддержка языков - работает с любым разговорным языком через анализ аудио
- Выражение лица с учетом настроения для улучшенной выразительности
- Настраиваемые типы вывода (полное лицо или управление только ртом)
Модели синхронизации губ
Плагин предлагает несколько моделей синхронизации губ для различных потребностей проекта:
- Стандартная модель
- Реалистичная модель
- Реалистичная модель с поддержкой настроения
Стандартная модель синхронизации губ обеспечивает эффективную, кросс-платформенную производительность с широкой совместимостью персонажей:
- Работает с MetaHumans и всеми типами пользовательских персонажей
- Оптимизирована для производительности в реальном времени
- Меньшие требования к ресурсам
- Полная совместимость с локальным TTS (плагин Runtime Text To Speech)
- Поддержка платформ: Windows, Android, Android-основанные платформы (включая Meta Quest)
- Три уровня оптимизации: Original, Semi-Optimized и Highly Optimized
Для использования Стандартной модели вам необходимо установить дополнительный плагин расширения. Смотрите раздел Предварительные требования для инструкций по установке.
Реалистичная модель синхронизации губ обеспечивает улучшенную визуальную точность, специально для персонажей MetaHuman:
- Эксклюзивно для MetaHuman с расширенной лицевой анимацией (81 лицевой контроль)
- Более высокое визуальное качество с более естественными движениями рта
- Немного более высокие требования к производительности
- Ограниченная поддержка локального TTS (рекомендуются внешние TTS сервисы)
- Идеально для кинематографических впечатлений и взаимодействий с персонажами крупным планом
- Поддержка платформ: Windows, Mac, iOS, Linux
- Три уровня оптимизации: Original, Semi-Optimized и Highly Optimized
Реалистичная модель включена в основной плагин и не требует никаких дополнительных расширений для использования.
Реалистичная модель с поддержкой настроения обеспечивает лицевую анимацию, учитывающую эмоции, для персонажей MetaHuman:
- Эксклюзивно для MetaHuman с настроенно-отзывчивой лицевой анимацией
- 12 различных типов настроения (Neutral, Happy, Sad, Confident и т.д.)
- Настраиваемая интенсивность настроения (от 0.0 до 1.0)
- Регулируемое время упреждения для улучшенной синхронизации (от 20мс до 200мс)
- Выбираемые типы вывода: Full Face или Mouth Only controls
- Потоковая обработка аудио для приложений реального времени
- Поддержка платформ: Windows, Mac, iOS, Linux
Модель с поддержкой настроения* включает расширенные функции, такие как настраиваемое время упреждения и выборочный вывод управления, что делает её идеальной для приложений, требующих контроля эмоциональной выразительности.
Вы можете выбрать подходящую модель в зависимости от требований вашего проекта к производительности, совместимости с персонажами, визуальному качеству, целевой платформе и необходимым функциям.
Хотя все модели поддерживают различные методы ввода аудио, обычная модель Realistic имеет ограниченную совместимость с локальным TTS из-за конфликтов среды выполнения ONNX. Однако модель Realistic с поддержкой настроения полностью совместима с локальным TTS. Для функциональности преобразования текста в речь:
- Стандартная модель: Совместима со всеми вариантами TTS (локальными и внешними)
- Модель Realistic: Рекомендуются внешние сервисы TTS (OpenAI, ElevenLabs)
- Модель Realistic с поддержкой настроения: Совместима со всеми вариантами TTS (локальными и внешними)
Как это работает
Плагин обрабатывает аудиовход следующим образом:
- Аудиоданные принимаются в формате PCM с плавающей запятой с указанными каналами и частотой дискретизации
- Плагин обрабатывает аудио для генерации данных управления лицевой анимацией или виземов в зависимости от модели
- Для моделей с поддержкой настроения эмоциональный контекст применяется к лицевой анимации
- Данные анимации управляют движениями лица персонажа в реальном времени
Быстрый старт
Вот базовая настройка для включения синхронизации губ на вашем персонаже:
- Для персонажей MetaHuman следуйте Руководству по настройке
- Для пользовательских персонажей следуйте Руководству по настройке пользовательских персонажей
- Выберите и настройте предпочитаемую модель синхронизации губ
- Настройте обработку аудиовхода в вашем Blueprint
- Подключите соответствующий узел синхронизации губ в Animation Blueprint
- Воспроизводите аудио и наблюдайте, как ваш персонаж говорит с эмоциями!
Дополнительные ресурсы
📦 Загрузки и ссылки
- Получить на Fab
- Веб-сайт продукта
- Скачать демо (Windows)
- Скачать исходные файлы демо (UE 5.6) – Требуется этот плагин + Runtime Audio Importer, опционально: Text To Speech / AI Chatbot. Стандартная модель требует небольшой плагин-расширение (см. здесь)
🎥 Видеоуроки
Рекомендуемое демо:
Реалистичная модель (Высококачественные) обучающие материалы:
- Высококачественная Lip Sync с контролем настроения и локальным TTS ⭐ НОВОЕ
- Высококачественная Lip Sync с ElevenLabs и OpenAI TTS
- Высококачественная Lip Sync с живым микрофоном
Стандартная модель обучающие материалы:
- Стандартная Lip Sync с живым микрофоном
- Стандартная Lip Sync с локальным Text-to-Speech
- Стандартная Lip Sync с ElevenLabs и OpenAI TTS
Общая настройка:
💬 Поддержка
- Discord сервер поддержки
- Кастомная разработка: [email protected] (индивидуальные решения для команд и организаций)