Перейти к основному содержимому

Обзор

Runtime MetaHuman Lip Sync Documentation

Runtime MetaHuman Lip Sync — это плагин, обеспечивающий синхронизацию губ в реальном времени, офлайн и на разных платформах как для MetaHuman, так и для пользовательских персонажей. Он позволяет анимировать губы персонажа в ответ на аудиовход из различных источников, включая:

Плагин внутренне генерирует виземы (визуальные представления фонем) на основе аудиовхода. Поскольку он работает напрямую с аудиоданными, а не с текстом, плагин поддерживает многоязычный ввод, включая, но не ограничиваясь: английский, испанский, французский, немецкий, японский, китайский, корейский, русский, итальянский, португальский, арабский и хинди. Поддерживается буквально любой язык, так как синхронизация губ генерируется из аудиофонем, а не из языковой обработки текста.

Стандартная модель создает 14 визем и выполняет анимацию губ с использованием предопределенного ассета поз. В отличие от этого, Реалистичные модели (эксклюзивно для персонажей MetaHuman и на основе ARKit) генерируют 81 изменение лицевой анимации без использования предопределенного ассета поз, что приводит к значительно более реалистичной лицевой анимации.

Совместимость с персонажами

Несмотря на свое название, Runtime MetaHuman Lip Sync работает с широким спектром персонажей, выходящим за рамки только MetaHuman:

  • Персонажи Daz Genesis 8/9
  • Персонажи Reallusion Character Creator 3/4 (CC3/CC4)
  • Персонажи Mixamo
  • Аватары ReadyPlayerMe

Поддержка стандартов анимации

  • Системы блендшейпов на основе FACS
  • Стандарт блендшейпов Apple ARKit
  • Наборы фонем Preston Blair
  • Системы фонем 3ds Max
  • Любые персонажи с пользовательскими морф-таргетами для мимики

Для персонажей, не являющихся MetaHuman, использующих Стандартную модель, см. Руководство по настройке пользовательских персонажей. Для персонажей на основе ARKit, использующих Реалистичные модели, см. Выбор набора морф-таргетов.

Предпросмотр анимации

Посмотрите эти короткие анимации, чтобы оценить качество синхронизации губ, создаваемой плагином для разных типов персонажей и моделей:

Реалистичная модель с персонажем MetaHuman
Стандартная модель с персонажем MetaHuman
Стандартная модель с пользовательским персонажем
Стандартная модель с пользовательским персонажем

Ключевые возможности

Модели синхронизации губ

Плагин предлагает несколько моделей синхронизации губ для различных нужд проекта:

Стандартная модель синхронизации губ обеспечивает эффективную кроссплатформенную производительность с широкой совместимостью персонажей:

  • Работает с MetaHumans и всеми типами пользовательских персонажей
  • Оптимизирована для производительности в реальном времени
  • Более низкие требования к ресурсам
  • Поддержка платформ: Windows, Android, платформы на базе Android (включая Meta Quest)
Требуется плагин-расширение

Для использования Стандартной модели необходимо установить дополнительный плагин-расширение. См. раздел «Предварительные требования» для получения инструкций по установке.

Вы можете выбрать подходящую модель, исходя из требований вашего проекта к производительности, совместимости персонажей, визуальному качеству, целевой платформе и функциональным возможностям.

Как это работает

Плагин обрабатывает аудиовход следующим образом:

  1. Аудиоданные принимаются в формате float PCM с указанными каналами и частотой дискретизации
  2. Плагин обрабатывает аудио для генерации данных управления лицом или визем в зависимости от модели
  3. Для моделей с поддержкой настроения к анимации лица применяется эмоциональный контекст
  4. Данные анимации управляют движениями лица персонажа в реальном времени

Архитектура производительности

Runtime MetaHuman Lip Sync использует только CPU для логического вывода, чтобы обеспечить стабильные результаты синхронизации губ с низкой задержкой, подходящие для приложений реального времени. По умолчанию плагин выполняет обработку синхронизации губ каждые 10 миллисекунд (настраивается — см. Конфигурация плагина для всех доступных настроек, включая Размер блока обработки, количество потоков и другие параметры производительности).

Обзор архитектуры модели

Модели синхронизации губ используют компактную нейронную сеть на основе трансформера, которая обрабатывает аудио через анализ мел-спектрограммы. Эта легковесная архитектура специально разработана для производительности в реальном времени с эффективным логическим выводом на CPU и минимальным потреблением памяти.

Почему логический вывод на CPU?

Для небольших частых операций логического вывода, таких как синхронизация губ в реальном времени, обработка на CPU обеспечивает лучшие характеристики задержки, чем GPU. При размере пакета 1 и интервалах логического вывода 10-100 мс накладные расходы GPU на передачу по PCIe и запуск ядер часто превышают фактическое время вычислений. Кроме того, в игровых движках GPU уже загружен рендерингом, шейдерами и физикой, что создает конкуренцию за ресурсы и приводит к непредсказуемым скачкам задержки.

Аппаратная совместимость

Плагин эффективно работает на большинстве процессоров среднего и выше класса без необходимости в выделенном графическом оборудовании, обеспечивая производительность в реальном времени на настольных, мобильных и VR-платформах. Для более слабого оборудования вы можете настроить Тип модели на Semi-Optimized или Highly Optimized, или увеличить Размер блока обработки, чтобы поддерживать производительность в реальном времени с несколько сниженной отзывчивостью.

Быстрый старт

Вот базовая настройка для включения синхронизации губ на вашем персонаже:

  1. Для персонажей MetaHuman следуйте Руководству по настройке
  2. Для пользовательских персонажей следуйте Руководству по настройке пользовательских персонажей
  3. Выберите и настройте предпочтительную модель синхронизации губ
  4. Настройте обработку аудиовхода в вашем Blueprint
  5. Подключите соответствующий узел синхронизации губ в Animation Blueprint
  6. Воспроизведите аудио и наблюдайте, как ваш персонаж анимируется синхронно

Опциональная анимация глаз

Плагин также включает опциональные вспомогательные средства для автоматического моргания и отслеживания взгляда на MetaHumans. Они независимы от синхронизации губ и могут использоваться отдельно или накладываться поверх нее. См. Вспомогательные средства анимации глаз.

Дополнительные ресурсы

📦 Загрузки и ссылки

Демонстрационные проекты:

Доступны два готовых к использованию демонстрационных проекта — см. специальную страницу Демонстрационные проекты для получения полной информации, загрузок и пошаговых руководств:

Обе демонстрации кроссплатформенны (Windows, Mac, Linux, iOS, Android, Meta Quest) и поставляются в виде собранных сборок и полных исходных проектов для UE 5.6+.

🎥 Видеоуроки

Избранные демонстрации:

Уроки по реалистичной модели (высокое качество):

Уроки по стандартной модели:

Общая настройка:

💬 Поддержка

  • Пользовательская разработка: [email protected] (индивидуальные решения для команд и организаций)
Join our Discord
online · support