Перейти к основному содержимому

Демо-проекты

Чтобы помочь вам быстро начать работу с Runtime MetaHuman Lip Sync, доступны два готовых демо-проекта. Оба созданы на Unreal Engine 5.6 (и поддерживаются в UE 5.7+), являются только на Blueprint и работают кроссплатформенно на Windows, Mac, Linux, iOS, Android и платформах на базе Android (включая Meta Quest).

Доступные демо-проекты

Полноценный рабочий процесс разговорного ИИ NPC, объединяющий распознавание речи, чат-бота на основе ИИ (LLM), синтез речи и воспроизведение аудио с синхронизацией губ в реальном времени — всё это работает вместе в одном проекте.

Обзор конвейера

🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback

Видео-презентация

Скачать

Необходимые и опциональные плагины

Демо-проект модульный – вам нужны только плагины для тех провайдеров, которые вы хотите использовать.

ПлагинНазначениеОбязателен?
Runtime MetaHuman Lip SyncАнимация синхронизации губ✅ Всегда
Runtime Audio ImporterЗахват и обработка аудио✅ Всегда
Runtime Speech RecognizerОффлайн-распознавание речи (whisper.cpp)✅ Всегда
Runtime AI Chatbot IntegratorВнешние LLM (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) и/или внешние TTS (OpenAI, ElevenLabs)🔶 Опционально*
Runtime Local LLMЛокальный вывод LLM через llama.cpp (Llama, Mistral, Gemma и др., модели GGUF)🔶 Опционально*
Runtime Text To SpeechЛокальный TTS через Piper и Kokoro🔶 Опционально*

* Вам нужен как минимум один провайдер LLM и как минимум один провайдер TTS. Смешивайте и сочетайте свободно (например, локальная LLM + TTS от ElevenLabs, или OpenAI LLM + локальная TTS).

Модульная архитектура

Демо-проект полностью модульный. В папке Content вы найдете папку Modules, которая содержит три подпапки:

Content/
└── Modules/
├── RuntimeAIChatbotIntegrator/ ← External LLMs and/or external TTS
├── RuntimeLocalLLM/ ← Local LLM via llama.cpp
└── RuntimeTextToSpeech/ ← Local TTS via Piper/Kokoro

Если вы не приобрели один (или несколько) дополнительных плагинов, просто удалите соответствующую папку (папки). Базовые ассеты демо-проекта (game instance, виджеты и т.д.) не ссылаются на эти модули напрямую, поэтому удаление не вызовет ошибок ссылок. Интерфейс конфигурации автоматически скроет любого провайдера, чья папка отсутствует.

примечание

Эта модульность относится только к провайдерам LLM и TTS. Speech Recognition (Runtime Speech Recognizer) и Lip Sync (Runtime MetaHuman Lip Sync) являются частью базового демо-проекта и всегда обязательны.

Структура папки модулей

warning

При первом запуске Unreal может спросить, нужно ли отключить отсутствующие дополнительные плагины — нажмите Yes. Убедитесь, что вы также удалили соответствующую папку Content/Modules/ (см. выше).

Макет демо-проекта

Интерфейс предназначен для демонстрации

Пользовательский интерфейс, показанный ниже, полностью построен с помощью UMG (Unreal Motion Graphics) и предназначен исключительно для демонстрации пайплайна — распознавание речи → LLM → TTS → синхронизация губ. Вы можете изменить стиль или полностью заменить его в соответствии с визуальным дизайном вашей игры, схемой управления или платформой (VR/AR, мобильная, консоль и т.д.). Если какие-то виджеты не нужны в вашем случае, вы можете просто скрыть их (например, установить видимость в Collapsed или Hidden).

Аннотированный обзор главного экрана демо-проекта

ОбластьЧто находится
ЦентрПерсонаж MetaHuman.
Левая сторонаЧетыре кнопки конфигурации (Speech Recognition, AI Chatbot, Text To Speech, Animations), подробно описанные ниже.
Центр нижней частиКнопка Start Recording. Нажмите её, чтобы начать голосовой разговор: ваш микрофон захватывается, транскрибируется, отправляется в LLM, ответ синтезируется через TTS и воспроизводится с синхронизацией губ, полностью без рук.
Правая центральная частьВиджет истории разговора, показывающий полный диалог между вами и ИИ (как сообщения пользователя, так и ассистента). Он также включает поле ввода текста, так что вы можете вводить сообщения напрямую без использования распознавания речи, что удобно для тестирования, доступности или когда микрофон недоступен.
подсказка

Вы можете свободно комбинировать оба режима ввода в рамках одной сессии — произносить одни сообщения голосом, другие вводить текстом.

Кнопки конфигурации

Четыре кнопки конфигурации слева открывают специальные панели для каждой части пайплайна:

1. Configure Speech Recognition

Настройте, как голос пользователя захватывается и транскрибируется:

  • Выберите язык
  • Настройте параметры распознавания речи (настройки модели Whisper)
  • Настройте AEC (подавление акустического эха)
  • Настройте VAD (детектирование голосовой активности)

Экран конфигурации распознавания речи

2. Configure AI Chatbot

Выберите провайдера LLM и настройте его:

  • Выберите провайдера (Runtime AI Chatbot Integrator или Runtime Local LLM)
  • Для внешних провайдеров: токен авторизации, имя модели и т.д.
  • Для локального LLM: выберите модель GGUF, задайте размер контекста и другие параметры инференса. Вы также можете загрузить собственную модель GGUF во время выполнения прямо из демо (например, по URL) и использовать её без пересборки проекта.
подсказка

Выпадающий список провайдеров показывает только тех провайдеров, чья папка модуля плагина присутствует в Content/Modules/.

Конфигурация AI чат-бота - Runtime AI Chatbot Integrator (внешняя LLM)

Конфигурация AI чат-бота - Runtime Local LLM (локальная GGUF)

3. Configure Text To Speech

Выберите провайдера TTS и настройте голоса/модели:

  • Выберите провайдера (Runtime AI Chatbot Integrator для OpenAI/ElevenLabs или Runtime Text To Speech для локальных Piper/Kokoro)
  • Выберите голос/модель
  • Настройте параметры, специфичные для провайдера

Конфигурация TTS - Runtime AI Chatbot Integrator (внешняя TTS)

Конфигурация TTS - Runtime Local Text To Speech (локальные Piper/Kokoro)

4. Configure Animations

Управляйте визуальными аспектами вашего ИИ-NPC:

  • Выберите одного из 3 предзагруженных персонажей MetaHuman (Aera, Ada, Orlando)
  • Выберите модель синхронизации губ (Standard или Realistic)
  • Выберите тип модели синхронизации губ — Highly Optimized, Semi-Optimized или Original (см. Model Type)
  • Настройте Processing Chunk Size — управляет частотой инференса синхронизации губ (см. Processing Chunk Size)
  • Выберите анимацию простоя, которая будет воспроизводиться на MetaHuman во время разговора

Экран конфигурации анимаций

Предварительная настройка демо в редакторе

При работе с исходной версией вы можете задать значения по умолчанию прямо в редакторе, чтобы не вводить их каждый раз заново:

ЧтоГде
Основные настройки (модель синхронизации губ, анимация простоя, класс персонажа, распознавание речи и т.д.)Content/LipSyncSTSGameInstance
Настройки внешней LLM / внешней TTS (Runtime AI Chatbot Integrator)Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider
Настройки локальной LLM (Runtime Local LLM)Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider
Настройки локальной TTS (Runtime Text To Speech)Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider

Замечания по кроссплатформенности

Все плагины, используемые в демо, поддерживают Windows, Mac, Linux, iOS, Android и платформы на базе Android (включая Meta Quest), поэтому демо-проект также работает на всех этих платформах.

Для более слабых устройств (мобильные, автономные VR) вы можете:

  • Использовать Standard модель синхронизации губ вместо Realistic — см. Сравнение моделей
  • Переключиться на Highly Optimized тип модели
  • Увеличить Processing Chunk Size для снижения нагрузки на процессор
  • Выбрать более компактные модели LLM / TTS

Дополнительные шаги по настройке для Android, iOS, Mac и Linux см. в Конфигурация для конкретных платформ.

Использование собственного MetaHuman

В демо-проекте поставляются три примера персонажей MetaHuman (Aera, Ada, Orlando), но вы можете импортировать своего MetaHuman и использовать его в демо.

📺 Видеоурок: Добавление пользовательского персонажа MetaHuman в демо-проект

примечание

Сам плагин Runtime MetaHuman Lip Sync поддерживает множество других систем персонажей помимо MetaHuman (персонажи на основе ARKit, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe и др. — см. Руководство по настройке пользовательских персонажей).

Примечания для стандартной модели синхронизации губ

Если вы планируете использовать Стандартную модель (Standard Model) в любом из демо-проектов, вам потребуется установить плагин Standard Lip Sync Extension. Инструкции по установке см. в разделе Standard Model Extension.

Нужна помощь?

Если у вас возникнут проблемы с настройкой или запуском демо-проектов, не стесняйтесь обращаться:

Join our Discord
online · support

Для запросов на индивидуальную разработку (например, расширение демо своей логикой, адаптация под конкретную платформу или пайплайн персонажа) обращайтесь на [email protected].