Демо-проекты
Чтобы помочь вам быстро начать работу с Runtime MetaHuman Lip Sync, доступны два готовых демо-проекта. Оба созданы на Unreal Engine 5.6 (и поддерживаются в UE 5.7+), являются только на Blueprint и работают кроссплатформенно на Windows, Mac, Linux, iOS, Android и платформах на базе Android (включая Meta Quest).
Доступные демо-проекты
- ИИ-разговорный NPC
- Basic Lip Sync Demo
Полноценный рабочий процесс разговорного ИИ NPC, объединяющий распознавание речи, чат-бота на основе ИИ (LLM), синтез речи и воспроизведение аудио с синхронизацией губ в реальном времени — всё это работает вместе в одном проекте.
Обзор конвейера
🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback
Видео-презентация
Скачать
Необходимые и опциональные плагины
Демо-проект модульный – вам нужны только плагины для тех провайдеров, которые вы хотите использовать.
| Плагин | Назначение | Обязателен? |
|---|---|---|
| Runtime MetaHuman Lip Sync | Анимация синхронизации губ | ✅ Всегда |
| Runtime Audio Importer | Захват и обработка аудио | ✅ Всегда |
| Runtime Speech Recognizer | Оффлайн-распознавание речи (whisper.cpp) | ✅ Всегда |
| Runtime AI Chatbot Integrator | Внешние LLM (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) и/или внешние TTS (OpenAI, ElevenLabs) | 🔶 Опционально* |
| Runtime Local LLM | Локальный вывод LLM через llama.cpp (Llama, Mistral, Gemma и др., модели GGUF) | 🔶 Опционально* |
| Runtime Text To Speech | Локальный TTS через Piper и Kokoro | 🔶 Опционально* |
* Вам нужен как минимум один провайдер LLM и как минимум один провайдер TTS. Смешивайте и сочетайте свободно (например, локальная LLM + TTS от ElevenLabs, или OpenAI LLM + локальная TTS).
Модульная архитектура
Демо-проект полностью модульный. В папке Content вы найдете папку Modules, которая содержит три подпапки:
Content/
└── Modules/
├── RuntimeAIChatbotIntegrator/ ← External LLMs and/or external TTS
├── RuntimeLocalLLM/ ← Local LLM via llama.cpp
└── RuntimeTextToSpeech/ ← Local TTS via Piper/Kokoro
Если вы не приобрели один (или несколько) дополнительных плагинов, просто удалите соответствующую папку (папки). Базовые ассеты демо-проекта (game instance, виджеты и т.д.) не ссылаются на эти модули напрямую, поэтому удаление не вызовет ошибок ссылок. Интерфейс конфигурации автоматически скроет любого провайдера, чья папка отсутствует.
Эта модульность относится только к провайдерам LLM и TTS. Speech Recognition (Runtime Speech Recognizer) и Lip Sync (Runtime MetaHuman Lip Sync) являются частью базового демо-проекта и всегда обязательны.

При первом запуске Unreal может спросить, нужно ли отключить отсутствующие дополнительные плагины — нажмите Yes. Убедитесь, что вы также удалили соответствующую папку Content/Modules/ (см. выше).
Макет демо-проекта
Пользовательский интерфейс, показанный ниже, полностью построен с помощью UMG (Unreal Motion Graphics) и предназначен исключительно для демонстрации пайплайна — распознавание речи → LLM → TTS → синхронизация губ. Вы можете изменить стиль или полностью заменить его в соответствии с визуальным дизайном вашей игры, схемой управления или платформой (VR/AR, мобильная, консоль и т.д.). Если какие-то виджеты не нужны в вашем случае, вы можете просто скрыть их (например, установить видимость в Collapsed или Hidden).

| Область | Что находится |
|---|---|
| Центр | Персонаж MetaHuman. |
| Левая сторона | Четыре кнопки конфигурации (Speech Recognition, AI Chatbot, Text To Speech, Animations), подробно описанные ниже. |
| Центр нижней части | Кнопка Start Recording. Нажмите её, чтобы начать голосовой разговор: ваш микрофон захватывается, транскрибируется, отправляется в LLM, ответ синтезируется через TTS и воспроизводится с синхронизацией губ, полностью без рук. |
| Правая центральная часть | Виджет истории разговора, показывающий полный диалог между вами и ИИ (как сообщения пользователя, так и ассистента). Он также включает поле ввода текста, так что вы можете вводить сообщения напрямую без использования распознавания речи, что удобно для тестирования, доступности или когда микрофон недоступен. |
Вы можете свободно комбинировать оба режима ввода в рамках одной сессии — произносить одни сообщения голосом, другие вводить текстом.
Кнопки конфигурации
Четыре кнопки конфигурации слева открывают специальные панели для каждой части пайплайна:
1. Configure Speech Recognition
Настройте, как голос пользователя захватывается и транскрибируется:
- Выберите язык
- Настройте параметры распознавания речи (настройки модели Whisper)
- Настройте AEC (подавление акустического эха)
- Настройте VAD (детектирование голосовой активности)

2. Configure AI Chatbot
Выберите провайдера LLM и настройте его:
- Выберите провайдера (Runtime AI Chatbot Integrator или Runtime Local LLM)
- Для внешних провайдеров: токен авторизации, имя модели и т.д.
- Для локального LLM: выберите модель GGUF, задайте размер контекста и другие параметры инференса. Вы также можете загрузить собственную модель GGUF во время выполнения прямо из демо (например, по URL) и использовать её без пересборки проекта.
Выпадающий список провайдеров показывает только тех провайдеров, чья папка модуля плагина присутствует в Content/Modules/.


3. Configure Text To Speech
Выберите провайдера TTS и настройте голоса/модели:
- Выберите провайдера (Runtime AI Chatbot Integrator для OpenAI/ElevenLabs или Runtime Text To Speech для локальных Piper/Kokoro)
- Выберите голос/модель
- Настройте параметры, специфичные для провайдера


4. Configure Animations
Управляйте визуальными аспектами вашего ИИ-NPC:
- Выберите одного из 3 предзагруженных персонажей MetaHuman (Aera, Ada, Orlando)
- Выберите модель синхронизации губ (Standard или Realistic)
- Выберите тип модели синхронизации губ — Highly Optimized, Semi-Optimized или Original (см. Model Type)
- Настройте Processing Chunk Size — управляет частотой инференса синхронизации губ (см. Processing Chunk Size)
- Выберите анимацию простоя, которая будет воспроизводиться на MetaHuman во время разговора

Предварительная настройка демо в редакторе
При работе с исходной версией вы можете задать значения по умолчанию прямо в редакторе, чтобы не вводить их каждый раз заново:
| Что | Где |
|---|---|
| Основные настройки (модель синхронизации губ, анимация простоя, класс персонажа, распознавание речи и т.д.) | Content/LipSyncSTSGameInstance |
| Настройки внешней LLM / внешней TTS (Runtime AI Chatbot Integrator) | Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider |
| Настройки локальной LLM (Runtime Local LLM) | Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider |
| Настройки локальной TTS (Runtime Text To Speech) | Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider |
Замечания по кроссплатформенности
Все плагины, используемые в демо, поддерживают Windows, Mac, Linux, iOS, Android и платформы на базе Android (включая Meta Quest), поэтому демо-проект также работает на всех этих платформах.
Для более слабых устройств (мобильные, автономные VR) вы можете:
- Использовать Standard модель синхронизации губ вместо Realistic — см. Сравнение моделей
- Переключиться на Highly Optimized тип модели
- Увеличить Processing Chunk Size для снижения нагрузки на процессор
- Выбрать более компактные модели LLM / TTS
Дополнительные шаги по настройке для Android, iOS, Mac и Linux см. в Конфигурация для конкретных платформ.
Использование собственного MetaHuman
В демо-проекте поставляются три примера персонажей MetaHuman (Aera, Ada, Orlando), но вы можете импортировать своего MetaHuman и использовать его в демо.
📺 Видеоурок: Добавление пользовательского персонажа MetaHuman в демо-проект
Сам плагин Runtime MetaHuman Lip Sync поддерживает множество других систем персонажей помимо MetaHuman (персонажи на основе ARKit, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe и др. — см. Руководство по настройке пользовательских персонажей).
Более простой демо-проект, который сосредоточен исключительно на функции синхронизации губ, без полного рабочего процесса ИИ-разговора. Подходит, если вы хотите просто увидеть синхронизацию губ в действии с различными источниками звука.
Видео-обзор
Загрузки
Что включено
Это демо демонстрирует базовые рабочие процессы синхронизации губ:
- Захват с микрофона — синхронизация губ в реальном времени с живым звуком
- Воспроизведение аудиофайлов — синхронизация губ из импортированных аудиофайлов
- Текст-в-Речь — синхронизация губ на основе синтезированной речи
Необходимые и дополнительные плагины
| Плагин | Назначение | Обязательный? |
|---|---|---|
| Runtime MetaHuman Lip Sync | Анимация синхронизации губ | ✅ Обязательный |
| Runtime Audio Importer | Импорт и захват аудио | ✅ Обязательный |
| Runtime Text To Speech | Локальный TTS для сцены TTS-демо | 🔶 Дополнительный |
| Runtime AI Chatbot Integrator | Внешние TTS-провайдеры (OpenAI, ElevenLabs) | 🔶 Дополнительный |
Примечания для стандартной модели синхронизации губ
Если вы планируете использовать Стандартную модель (Standard Model) в любом из демо-проектов, вам потребуется установить плагин Standard Lip Sync Extension. Инструкции по установке см. в разделе Standard Model Extension.
Нужна помощь?
Если у вас возникнут проблемы с настройкой или запуском демо-проектов, не стесняйтесь обращаться:
Для запросов на индивидуальную разработку (например, расширение демо своей логикой, адаптация под конкретную платформу или пайплайн персонажа) обращайтесь на [email protected].