Обзор

Runtime MetaHuman Lip Sync — это плагин, обеспечивающий синхронизацию губ в реальном времени, офлайн и на разных платформах как для MetaHuman, так и для пользовательских персонажей. Он позволяет анимировать губы персонажа в ответ на аудиовход из различных источников, включая:
- Вход с микрофона через capturable sound wave от Runtime Audio Importer
- Синтезированную речь от Runtime Text To Speech или Runtime AI Chatbot Integrator
- Потоковые или импортированные аудиоданные в нескольких форматах через Runtime Audio Importer
- Любые аудиоданные в формате float PCM (массив чисел с плавающей точкой)
Плагин внутренне генерирует виземы (визуальные представления фонем) на основе аудиовхода. Поскольку он работает напрямую с аудиоданными, а не с текстом, плагин поддерживает многоязычный ввод, включая, но не ограничиваясь: английский, испанский, французский, немецкий, японский, китайский, корейский, русский, итальянский, португальский, арабский и хинди. Поддерживается буквально любой язык, так как синхронизация губ генерируется из аудиофонем, а не из языковой обработки текста.
Стандартная модель создает 14 визем и выполняет анимацию губ с использованием предопределенного ассета поз. В отличие от этого, Реалистичные модели (эксклюзивно для персонажей MetaHuman и на основе ARKit) генерируют 81 изменение лицевой анимации без использования предопределенного ассета поз, что приводит к значительно более реалистичной лицевой анимации.
Совместимость с персонажами
Несмотря на свое название, Runtime MetaHuman Lip Sync работает с широким спектром персонажей, выходящим за рамки только MetaHuman:
Популярные коммерческие системы персонажей
- Персонажи Daz Genesis 8/9
- Персонажи Reallusion Character Creator 3/4 (CC3/CC4)
- Персонажи Mixamo
- Аватары ReadyPlayerMe
Поддержка стандартов анимации
- Системы блендшейпов на основе FACS
- Стандарт блендшейпов Apple ARKit
- Наборы фонем Preston Blair
- Системы фонем 3ds Max
- Любые персонажи с пользовательскими морф-таргетами для мимики
Для персонажей, не являющихся MetaHuman, использующих Стандартную модель, см. Руководство по настройке пользовательских персонажей. Для персонажей на основе ARKit, использующих Реалистичные модели, см. Выбор набора морф-таргетов.
Предпросмотр анимации
Посмотрите эти короткие анимации, чтобы оценить качество синхронизации губ, создаваемой плагином для разных типов персонажей и моделей:
Ключевые возможности
- Синхронизация губ в реальном времени с входом с микрофона
- Поддержка офлайн-обработки аудио
- Кроссплатформенная совместимость с поддержкой платформ, специфичной для модели
- Поддержка множества систем персонажей и стандартов анимации
- Гибкое сопоставление визем для пользовательских персонажей
- Универсальная языковая поддержка — работает с любым разговорным языком через анализ аудио
- Эмоционально-зависимая анимация лица для улучшенной выразительности
- Настраиваемые типы вывода (управление всем лицом или только ртом)
- Опциональные вспомогательные средства анимации глаз для моргания и отслеживания взгляда
Модели синхронизации губ
Плагин предлагает несколько моделей синхронизации губ для различных нужд проекта:
- Стандартная модель
- Реалистичная модель
- Эмоционально-зависимая реалистичная модель
Стандартная модель синхронизации губ обеспечивает эффективную кроссплатформенную производительность с широкой совместимостью персонажей:
- Работает с MetaHumans и всеми типами пользовательских персонажей
- Оптимизирована для производительности в реальном времени
- Более низкие требования к ресурсам
- Поддержка платформ: Windows, Android, платформы на базе Android (включая Meta Quest)
Для использования Стандартной модели необходимо установить дополнительный плагин-расширение. См. раздел «Предварительные требования» для получения инструкций по установке.
Реалистичная модель синхронизации губ обеспечивает повышенную визуальную точность, специально для персонажей MetaHuman:
- Совместима с персонажами MetaHuman и ARKit с продвинутой анимацией лица (81 элемент управления лицом)
- Более высокое визуальное качество с более естественными движениями рта
- Несколько более высокие требования к производительности
- Потоковая обработка аудио для приложений реального времени
- Идеально подходит для кинематографических впечатлений и взаимодействия с персонажами крупным планом
- Три уровня оптимизации: Original, Semi-Optimized и Highly Optimized
- Настраиваемые наборы morph target (см. Выбор набора morph target)
- Поддержка платформ: Windows, Mac, iOS, Linux, Android, платформы на базе Android (включая Meta Quest)
Реалистичная модель включена в основной плагин и не требует дополнительных расширений для использования.
Эмоционально-зависимая реалистичная модель обеспечивает анимацию лица с учетом эмоций для персонажей MetaHuman:
- Совместима с персонажами MetaHuman и ARKit с анимацией лица, реагирующей на настроение (81 элемент управления лицом)
- 12 различных типов настроения (Нейтральное, Счастливое, Грустное, Уверенное и т.д.)
- Настраиваемая интенсивность настроения (от 0.0 до 1.0)
- Регулируемое время упреждения для улучшенной синхронизации (от 20 мс до 200 мс)
- Выбираемые типы вывода: управление всем лицом или только ртом
- Потоковая обработка аудио для приложений реального времени
- Настраиваемые наборы morph target (см. Выбор набора morph target)
- Поддержка платформ: Windows, Mac, iOS, Linux, Android, платформы на базе Android (включая Meta Quest)
Эмоционально-зависимая реалистичная модель включена в основной плагин и не требует дополнительных расширений для использования.
Вы можете выбрать подходящую модель, исходя из требований вашего проекта к производительности, совместимости персонажей, визуальному качеству, целевой платформе и функциональным возможностям.
Как это работает
Плагин обрабатывает аудиовход следующим образом:
- Аудиоданные принимаются в формате float PCM с указанными каналами и частотой дискретизации
- Плагин обрабатывает аудио для генерации данных управления лицом или визем в зависимости от модели
- Для моделей с поддержкой настроения к анимации лица применяется эмоциональный контекст
- Данные анимации управляют движениями лица персонажа в реальном времени
Архитектура производительности
Runtime MetaHuman Lip Sync использует только CPU для логического вывода, чтобы обеспечить стабильные результаты синхронизации губ с низкой задержкой, подходящие для приложений реального времени. По умолчанию плагин выполняет обработку синхронизации губ каждые 10 миллисекунд (настраивается — см. Конфигурация плагина для всех доступных настроек, включая Размер блока обработки, количество потоков и другие параметры производительности).
Обзор архитектуры модели
Модели синхронизации губ используют компактную нейронную сеть на основе трансформера, которая обрабатывает аудио через анализ мел-спектрограммы. Эта легковесная архитектура специально разработана для производительности в реальном времени с эффективным логическим выводом на CPU и минимальным потреблением памяти.
Почему логический вывод на CPU?
Для небольших частых операций логического вывода, таких как синхронизация губ в реальном времени, обработка на CPU обеспечивает лучшие характеристики задержки, чем GPU. При размере пакета 1 и интервалах логического вывода 10-100 мс накладные расходы GPU на передачу по PCIe и запуск ядер часто превышают фактическое время вычислений. Кроме того, в игровых движках GPU уже загружен рендерингом, шейдерами и физикой, что создает конкуренцию за ресурсы и приводит к непредсказуемым скачкам задержки.
Аппаратная совместимость
Плагин эффективно работает на большинстве процессоров среднего и выше класса без необходимости в выделенном графическом оборудовании, обеспечивая производительность в реальном времени на настольных, мобильных и VR-платформах. Для более слабого оборудования вы можете настроить Тип модели на Semi-Optimized или Highly Optimized, или увеличить Размер блока обработки, чтобы поддерживать производительность в реальном времени с несколько сниженной отзывчивостью.
Быстрый старт
Вот базовая настройка для включения синхронизации губ на вашем персонаже:
- Для персонажей MetaHuman следуйте Руководству по настройке
- Для пользовательских персонажей следуйте Руководству по настройке пользовательских персонажей
- Выберите и настройте предпочтительную модель синхронизации губ
- Настройте обработку аудиовхода в вашем Blueprint
- Подключите соответствующий узел синхронизации губ в Animation Blueprint
- Воспроизведите аудио и наблюдайте, как ваш персонаж анимируется синхронно
Опциональная анимация глаз
Плагин также включает опциональные вспомогательные средства для автоматического моргания и отслеживания взгляда на MetaHumans. Они независимы от синхронизации губ и могут использоваться отдельно или накладываться поверх нее. См. Вспомогательные средства анимации глаз.
Дополнительные ресурсы
📦 Загрузки и ссылки
Демонстрационные проекты:
Доступны два готовых к использованию демонстрационных проекта — см. специальную страницу Демонстрационные проекты для получения полной информации, загрузок и пошаговых руководств:
- Полный рабочий процесс ИИ-диалогового NPC — распознавание речи + чат-бот LLM + TTS + синхронизация губ
- Базовая демонстрация синхронизации губ — ввод с микрофона, аудиофайлы, TTS
Обе демонстрации кроссплатформенны (Windows, Mac, Linux, iOS, Android, Meta Quest) и поставляются в виде собранных сборок и полных исходных проектов для UE 5.6+.
🎥 Видеоуроки
Избранные демонстрации:
Уроки по реалистичной модели (высокое качество):
- Высококачественная синхронизация губ из аудиофайла/буфера
- Высококачественная синхронизация губ с управлением настроением и локальным TTS
- Высококачественная синхронизация губ с ElevenLabs и OpenAI TTS
- Высококачественная синхронизация губ с живого микрофона
- Высококачественная синхронизация губ для персонажей ARKit
Уроки по стандартной модели:
- Стандартная синхронизация губ с живого микрофона
- Стандартная синхронизация губ с локальным синтезом речи
- Стандартная синхронизация губ с ElevenLabs и OpenAI TTS
Общая настройка:
- Добавление пользовательского персонажа MetaHuman в демонстрационный проект
- Видеоурок по настройке
- Обзор демонстрационного проекта (старый)
💬 Поддержка
- Пользовательская разработка: [email protected] (индивидуальные решения для команд и организаций)