Обзор

Runtime MetaHuman Lip Sync — это плагин, который обеспечивает синхронизацию губ в реальном времени, офлайн и на разных платформах как для персонажей MetaHuman, так и для пользовательских персонажей. Он позволяет анимировать губы персонажа в ответ на аудиовход из различных источников, включая:
- Ввод с микрофона через Runtime Audio Importer's capturable sound wave
- Синтезированную речь из Runtime Text To Speech или Runtime AI Chatbot Integrator
- Потоковые или импортированные аудиоданные в нескольких форматах через Runtime Audio Importer
- Любые аудиоданные в формате float PCM (массив сэмплов с плавающей точкой)
Плагин внутренне генерирует виземы (визуальные представления фонем) на основе аудиовхода. Поскольку он работает напрямую с аудиоданными, а не с текстом, плагин поддерживает многоязычный ввод, включая, помимо прочего, английский, испанский, французский, немецкий, японский, китайский, корейский, русский, итальянский, португальский, арабский и хинди. Буквально любой язык поддерживается, так как синхронизация губ генерируется из аудиофонем, а не на основе языковой обработки текста.
Standard Model производит 14 визем и выполняет анимацию синхронизации губ с использованием предварительно заданного pose asset. В отличие от этого, Realistic Models (эксклюзивно для персонажей на основе MetaHuman и ARKit) генерируют 81 изменение лицевого контроля без использования предварительно заданного pose asset, что приводит к значительно более реалистичной лицевой анимации.
Совместимость с персонажами
Несмотря на своё название, Runtime MetaHuman Lip Sync работает с широким спектром персонажей, не ограничиваясь только MetaHuman:
Популярные коммерческие системы персонажей
- Daz Genesis 8/9 персонажи
- Reallusion Character Creator 3/4 (CC3/CC4) персонажи
- Mixamo персонажи
- ReadyPlayerMe аватары
Поддержка анимационных стандартов
- Системы блендшейпов на основе FACS
- Стандарт блендшейпов Apple ARKit
- Наборы фонем Preston Blair
- Системы фонем 3ds Max
- Любой персонаж с пользовательскими морф-таргетами для лицевой анимации
Для подробных инструкций по использованию плагина с персонажами, не являющимися MetaHuman, смотрите Руководство по настройке пользовательских персонажей.
Предпросмотр анимации
Посмотрите эти короткие анимации, чтобы увидеть качество анимации синхронизации губ, создаваемой плагином для различных типов персонажей и моделей:
Ключевые возможности
- Синхронизация губ в реальном времени с микрофонного входа
- Поддержка офлайн-обработки аудио
- Кроссплатформенная совместимость с поддержкой платформ в зависимости от модели
- Поддержка различных систем персонажей и стандартов анимации
- Гибкое сопоставление визем для пользовательских персонажей
- Поддержка всех языков - работает с любым разговорным языком через анализ аудио
- Анимация лица с учетом настроения для улучшенной выразительности
- Настраиваемые типы вывода (управление всем лицом или только ртом)
Модели синхронизации губ
Плагин предлагает несколько моделей синхронизации губ для удовлетворения различных потребностей проекта:
- Standard Model
- Realistic Model
- Mood-Enabled Realistic Model
Стандартная модель синхронизации губ обеспечивает эффективную кроссплатформенную производительность с широкой совместимостью персонажей:
- Работает с MetaHuman и всеми типами пользовательских персонажей
- Оптимизирована для работы в реальном времени
- Более низкие требования к ресурсам
- Поддержка платформ: Windows, Android, платформы на базе Android (включая Meta Quest)
Чтобы использовать Standard Model, вам необходимо установить дополнительный плагин-расширение. См. раздел Предварительные требования для инструкций по установке.
Реалистичная модель синхронизации губ обеспечивает повышенную визуальную точность специально для персонажей MetaHuman:
- Совместима с персонажами MetaHuman и на базе ARKit с продвинутой лицевой анимацией (81 контрольная точка лица)
- Более высокое качество визуализации с более естественными движениями рта
- Немного более высокие требования к производительности
- Потоковая обработка аудио для приложений реального времени
- Идеально подходит для кинематографических сцен и взаимодействия с персонажами крупным планом
- Три уровня оптимизации: Исходный, Частично оптимизированный и Сильно оптимизированный
- Настраиваемые наборы морф-целей (см. Morph Target Set Selection)
- Поддержка платформ: Windows, Mac, iOS, Linux, Android, платформы на базе Android (включая Meta Quest)
Realistic Model включена в основной плагин и не требует установки дополнительных расширений для использования.
Модель с учетом настроения обеспечивает лицевую анимацию с распознаванием эмоций для персонажей MetaHuman:
- Совместима с персонажами MetaHuman и на базе ARKit, с лицевой анимацией, реагирующей на настроение (81 контрольная точка лица)
- 12 различных типов настроения (Нейтральное, Радостное, Грустное, Уверенное и т. д.)
- Настраиваемая интенсивность настроения (от 0.0 до 1.0)
- Регулируемое время упреждения для улучшенной синхронизации (от 20 мс до 200 мс)
- Выбираемые типы вывода: управление всем лицом или только ртом
- Потоковая обработка аудио для приложений реального времени
- Настраиваемые наборы морф-целей (см. Morph Target Set Selection)
- Поддержка платформ: Windows, Mac, iOS, Linux, Android, платформы на базе Android (включая Meta Quest)
Mood-Enabled Realistic Model включена в основной плагин и не требует установки дополнительных расширений для использования.
Вы можете выбрать подходящую модель в зависимости от требований вашего проекта по производительности, совместимости с персонажами, визуальному качеству, целевой платформе и необходимым функциям.
Как это работает
Плагин обрабатывает аудиовход следующим образом:
- Аудиоданные поступают в формате float PCM с заданными каналами и частотой дискретизации
- Плагин обрабатывает аудио для генерации данных управления мимикой или визем в зависимости от модели
- Для моделей с настроением эмоциональный контекст применяется к лицевой анимации
- Данные анимации управляют движениями лица персонажа в реальном времени
Архитектура производительности
Runtime MetaHuman Lip Sync использует только CPU-вывод для получения стабильных результатов синхронизации губ с низкой задержкой, подходящих для приложений реального времени. По умолчанию плагин выполняет синхронизацию губ каждые 10 миллисекунд (настраивается - см. Конфигурация плагина для всех доступных настроек, включая Processing Chunk Size, thread count и другие параметры производительности).
Обзор архитектуры модели
Модели синхронизации губ используют компактную нейронную сеть на основе трансформера, которая обрабатывает аудио с помощью анализа мел-спектрограммы. Эта легковесная архитектура специально разработана для работы в реальном времени с эффективным CPU-выводом и минимальным использованием памяти.
Почему CPU-вывод?
Для небольших частых операций вывода, таких как синхронизация губ в реальном времени, обработка на CPU обеспечивает лучшие характеристики задержки, чем на GPU. При размере пакета 1 и интервалах вывода 10-100 мс накладные расходы GPU от передач по PCIe и запусков ядер часто превышают фактическое время вычислений. Кроме того, в игровых движках GPU уже нагружен рендерингом, шейдерами и физикой, что создает конкуренцию за ресурсы и приводит к непредсказуемым скачкам задержки.
Совместимость с оборудованием
Плагин эффективно работает на большинстве процессоров среднего и высокого уровня без необходимости в выделенном графическом оборудовании, обеспечивая производительность в реальном времени на настольных, мобильных и VR платформах. Для более слабого оборудования вы можете изменить Model Type на Semi-Optimized или Highly Optimized, или увеличить Processing Chunk Size, чтобы поддерживать производительность в реальном времени с немного уменьшенной отзывчивостью.
Быстрый старт
Вот базовая настройка для включения синхронизации губ на вашем персонаже:
- Для персонажей MetaHuman следуйте руководству по настройке
- Для пользовательских персонажей следуйте руководству по настройке пользовательских персонажей
- Выберите и настройте предпочитаемую модель синхронизации губ
- Настройте обработку аудиовхода в вашем Blueprint
- Подключите соответствующий узел синхронизации губ в Animation Blueprint
- Воспроизведите аудио и смотрите, как ваш персонаж говорит с эмоциями!
Дополнительные ресурсы
📦 Загрузки и ссылки
Демо-проекты:
Доступны два готовых демо-проекта - см. выделенную страницу Демо-проекты для полной информации, загрузок и пошаговых руководств:
- Полный рабочий процесс разговорного NPC с ИИ - распознавание речи + чат-бот LLM + TTS + синхронизация губ
- Базовая демонстрация синхронизации губ - микрофонный вход, аудиофайлы, TTS
Обе демонстрации кроссплатформенные (Windows, Mac, Linux, iOS, Android, Meta Quest) и поставляются в виде упакованных сборок и полных исходных проектов для UE 5.6+.
🎥 Видеоуроки
Избранные демонстрации:
Уроки по Realistic Model (высокое качество):
- Высококачественная синхронизация губ из аудиофайла/буфера
- Высококачественная синхронизация губ с управлением настроением и локальным TTS
- Высококачественная синхронизация губ с ElevenLabs и OpenAI TTS
- Высококачественная синхронизация губ с живого микрофона
Уроки по Standard Model:
- Стандартная синхронизация губ с живого микрофона
- Стандартная синхронизация губ с локальным синтезом речи
- Стандартная синхронизация губ с ElevenLabs и OpenAI TTS
Общая настройка:
- Добавление пользовательского персонажа MetaHuman в демо-проект
- Видеоурок по настройке
- Обзор демо-проекта (старый)
💬 Поддержка
- Разработка под заказ: [email protected] (индивидуальные решения для команд и организаций)