Перейти к основному содержимому

Обзор

Документация Runtime MetaHuman Lip Sync

Runtime MetaHuman Lip Sync — это плагин, обеспечивающий синхронизацию губ в реальном времени, оффлайн и кросс-платформенно как для MetaHuman, так и для пользовательских персонажей. Он позволяет анимировать губы персонажа в ответ на аудиовход из различных источников, включая:

Плагин внутренне генерирует виземы (визуальные представления фонем) на основе аудиовхода и выполняет анимацию синхронизации губ с использованием предопределенного ассета поз.

Совместимость с персонажами

Несмотря на название, Runtime MetaHuman Lip Sync работает с широким спектром персонажей, не ограничиваясь только MetaHumans:

Популярные коммерческие системы персонажей

  • Персонажи Daz Genesis 8/9
  • Персонажи Reallusion Character Creator 3/4 (CC3/CC4)
  • Персонажи Mixamo
  • Аватары ReadyPlayerMe

Поддержка стандартов анимации

  • Системы блендшейпов на основе FACS
  • Стандарт блендшейпов Apple ARKit
  • Наборы фонем Preston Blair
  • Системы фонем 3ds Max
  • Любые персонажи с пользовательскими морф-таргетами для мимики

Подробные инструкции по использованию плагина с не-MetaHuman персонажами см. в Руководстве по настройке пользовательских персонажей.

Предпросмотр анимации

Оцените качество анимации синхронизации губ, создаваемой плагином, на примере различных типов персонажей и моделей:

Realistic Lip Sync Example
Реалистичная модель с персонажем MetaHuman
Standard Lip Sync Example
Стандартная модель с персонажем MetaHuman
Custom Character Lip Sync Example
Стандартная модель с пользовательским персонажем
Custom Character Lip Sync Example
Стандартная модель с пользовательским персонажем

Ключевые особенности

  • Реализация синхронизации губ (Lip Sync) в реальном времени с микрофонного ввода
  • Поддержка обработки аудио в оффлайн-режиме
  • Кросс-платформенная совместимость: Windows, Android, Meta Quest
  • Поддержка различных систем персонажей и стандартов анимации
  • Гибкое сопоставление виземов (viseme mapping) для пользовательских персонажей

Модели синхронизации губ

Плагин предлагает две модели Lip Sync для различных потребностей проекта:

Стандартная модель Lip Sync обеспечивает эффективную кросс-платформенную работу с широкой совместимостью персонажей:

  • Работает с MetaHumans и всеми типами пользовательских персонажей
  • Оптимизирована для работы в реальном времени на всех платформах
  • Меньшие требования к ресурсам
  • Полная совместимость с локальным TTS (плагин Runtime Text To Speech)
  • Подходит для мобильных и VR/AR приложений

Вы можете выбрать подходящую модель в зависимости от требований вашего проекта к производительности, совместимости персонажей и визуальному качеству.

Примечание о совместимости TTS

Хотя обе модели поддерживают различные методы аудиоввода, Реалистичная модель имеет ограниченную совместимость с локальным TTS из-за конфликтов с ONNX runtime. Для работы с текстом в речь (TTS) в Реалистичной модели рекомендуются внешние TTS-сервисы (OpenAI, ElevenLabs).

Как это работает

Плагин обрабатывает аудиоввод следующим образом:

  1. Аудиоданные принимаются в формате PCM (float) с указанными каналами и частотой дискретизации
  2. Плагин обрабатывает аудио для генерации виземов (фонем)
  3. Эти виземы управляют анимацией синхронизации губ с использованием pose-ассета персонажа
  4. Анимация применяется к персонажу в реальном времени

Быстрый старт

Базовая настройка для включения Lip Sync на вашем персонаже:

  1. Для персонажей MetaHuman следуйте Руководству по настройке MetaHuman
  2. Для пользовательских персонажей следуйте Руководству по настройке пользовательских персонажей
  3. Настройте обработку аудиоввода (например, в Event Graph)
  4. Подключите ноду Blend Runtime MetaHuman Lip Sync в Anim Graph
  5. Воспроизведите аудио и наблюдайте, как ваш персонаж говорит!

Дополнительные ресурсы

📦 Загрузки и ссылки

🎥 Видеоуроки

Уроки по Реалистичной модели (высокое качество):

Уроки по Стандартной модели:

Общая настройка:

💬 Поддержка