Обзор
Runtime MetaHuman Lip Sync — это плагин, обеспечивающий синхронизацию губ в реальном времени, оффлайн и кросс-платформенно как для MetaHuman, так и для пользовательских персонажей. Он позволяет анимировать губы персонажа в ответ на аудиовход из различных источников, включая:
- Вход с микрофона через захватываемую звуковую волну от Runtime Audio Importer
- Синтезированную речь от Runtime Text To Speech или Runtime AI Chatbot Integrator
- Любые аудиоданные в формате float PCM (массив сэмплов с плавающей запятой)
Плагин внутренне генерирует виземы (визуальные представления фонем) на основе аудиовхода. Поскольку он работает напрямую с аудиоданными, а не с текстом, плагин поддерживает многоязычный ввод, включая, но не ограничиваясь английским, испанским, французским, немецким, японским, китайским, корейски м, русским, итальянским, португальским, арабским и хинди. Фактически поддерживается любой язык, так как синхронизация губ генерируется из аудиофонем, а не из языко-специфичной обработки текста.
Стандартная модель создает 14 визем и анимирует синхронизацию губ с использованием предопределенного Pose Asset. В отличие от нее, Реалистичная модель (эксклюзивно для персонажей MetaHuman) генерирует 250 изменений морф-таргетов без использования предопределенного Pose Asset, что приводит к значительно более реалистичной анимации лица.
Совместимость с персонажами
Несмотря на название, Runtime MetaHuman Lip Sync работает с широким спектром персонажей, а не только с MetaHuman:
Популярные коммерческие системы персонажей
- Персонажи Daz Genesis 8/9
- Персонажи Reallusion Character Creator 3/4 (CC3/CC4)
- Персонажи Mixamo
- Аватары ReadyPlayerMe
Поддержка стандартов анимации
- Системы блендшейпов на основе FACS
- Стандарт блендшейпов Apple ARKit
- Наборы фонем Preston Blair
- Системы фонем 3ds Max
- Любые персонажи с пользовательскими морф-таргетами для мимики
Подробные инструкции по использованию плагина с персонажами, отличными от MetaHuman, см. в Руководстве по настройке пользовательских персонажей.
Предпросмотр анимации
Ознакомьтесь с этими короткими анимациями, чтобы оценить качество синхронизации губ, создаваемое плагином для различных типов персонажей и моделей:




Ключевые особенности
- Реализация синхронизации губ (Lip Sync) в реальном времени с микрофонного ввода
- Поддержка обработки аудио в оффлайн-режиме
- Кросс-платформенная совместимость: Windows, Android, Meta Quest
- Поддержка различных систем персонажей и стандартов анимации
- Гибкое сопоставление визем для пользовательских персонажей
- Универсальная языковая поддержка — работает с любым языком через анализ аудио
Модели синхронизации губ
Плагин предлагает две модели синхронизации губ для различных потребностей проекта:
- Стандартная модель
- Реалистичная модель
Стандартная модель обеспечивает эффективную кросс-платформенную работу с широкой совместимостью персонажей:
- Работает с MetaHumans и любыми пользовательскими персонажами
- Оптимизирована для работы в реальном времени на в сех платформах
- Низкие требования к ресурсам
- Полная совместимость с локальным TTS (плагин Runtime Text To Speech)
- Подходит для мобильных и VR/AR приложений
Реалистичная модель обеспечивает повышенную визуальную точность, особенно для персонажей MetaHuman:
- Эксклюзивно для MetaHumans с продвинутой лицевой анимацией
- Более высокое качество визуализации с естественными движениями рта
- Несколько повышенные требования к производительности
- Ограниченная поддержка локального TTS (рекомендуются внешние TTS-сервисы)
- Идеально для кинематографических сцен и близких взаимодействий с персонажами
Вы можете выбрать подходящую модель в зависимости от требований вашего проекта к производительности, совместимости персонажей и визуальному качеству.
Хотя обе модели поддерживают различные методы аудиоввода, Реалистичная модель имеет ограниченную совместимость с локальным TTS из-за конфликтов с ONNX runtime. Для работы с текстом в речь в Реалистичной модели рекомендуются внешние TTS-сервисы (OpenAI, ElevenLabs).
Как это работает
Плагин обрабатывает аудиоввод следующим образом:
- Аудиоданные принимаются в формате PCM (float) с указанными каналами и частотой дискретизации
- Плагин обрабатывает аудио для генерации визем (фонем)
- Эти виземы управляют анимацией синхронизации губ с использованием pose-ассета персонажа
- Анимация применяется к персонажу в реальном времени
Быстрый старт
Вот базовая настройка для включения синхронизации губ на вашем персонаже:
- Для персонажей MetaHuman следуйте Руководству по настройке MetaHuman
- Для пользовательских персонажей следуйте Руководству по настройке пользовательских персонажей
- Настройте обработку аудиоввода (например, в Event Graph)
- Подключите ноду Blend Runtime MetaHuman Lip Sync в Anim Graph
- Воспроизведите аудио и наблюдайте, как ваш персонаж говорит!
Дополнительные ресурсы
📦 Загрузки и ссылки
- Приобрести на Fab
- Официальный сайт продукта
- Скачать демо (Windows)
- Скачать исходные файлы демо (UE 5.6)
� Видеоуроки
Демонстрации:
Уроки по реалистичной модели (высокое качество):
- Синхронизация губ высокого качества с ElevenLabs & OpenAI TTS ⭐ НОВОЕ
- Синхронизация губ высокого качества с микрофоном в реальном времени ⭐ НОВОЕ
Уроки по стандартной модели:
- Стандартная синхронизация губ с микрофоном
- Стандартная синхронизация губ с локальным TTS
- Стандартная синхронизация губ с ElevenLabs & OpenAI TTS
Общая настройка:
💬 Поддержка
- Discord сервер поддержки
- Кастомная разработка: [email protected] (индивидуальные решения для команд и организаций)