Pular para o conteúdo principal

Projetos de Demonstração

Para ajudá-lo a começar rapidamente com o Runtime MetaHuman Lip Sync, dois projetos de demonstração prontos para uso estão disponíveis. Ambos são construídos com o Unreal Engine 5.6 (e suportados no UE 5.7+), são apenas Blueprint e executam multiplataforma no Windows, Mac, Linux, iOS, Android e em plataformas baseadas em Android (incluindo Meta Quest).

Projetos de Demonstração Disponíveis

Um fluxo de trabalho conversacional completo de NPC com IA combinando reconhecimento de fala, um chatbot de IA (LLM), conversão de texto em fala e reprodução de áudio com sincronização labial em tempo real – tudo executando junto em um único projeto.

Visão Geral do Pipeline

🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback

Vídeo em Destaque

Downloads

Plugins Obrigatórios e Opcionais

O projeto de demonstração é modular - você só precisa dos plugins para os provedores que deseja usar.

PluginFinalidadeObrigatório?
Runtime MetaHuman Lip SyncAnimação de sincronia labial✅ Sempre
Runtime Audio ImporterCaptura e processamento de áudio✅ Sempre
Runtime Speech RecognizerReconhecimento de fala offline (whisper.cpp)✅ Sempre
Runtime AI Chatbot IntegratorLLMs externos (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) e/ou TTS externo (OpenAI, ElevenLabs)🔶 Opcional*
Runtime Local LLMInferência de LLM local via llama.cpp (Llama, Mistral, Gemma, etc., modelos GGUF)🔶 Opcional*
Runtime Text To SpeechTTS local via Piper e Kokoro🔶 Opcional*

* Você precisa de pelo menos um provedor de LLM e pelo menos um provedor de TTS. Misture e combine livremente (por exemplo, LLM local + ElevenLabs TTS, ou LLM da OpenAI + TTS local).

Arquitetura Modular

O projeto de demonstração é totalmente modular. Na pasta Content você encontrará uma pasta Modules que contém três subpastas:

Content/
└── Modules/
├── RuntimeAIChatbotIntegrator/ ← External LLMs and/or external TTS
├── RuntimeLocalLLM/ ← Local LLM via llama.cpp
└── RuntimeTextToSpeech/ ← Local TTS via Piper/Kokoro

Se você não adquiriu um (ou mais) dos plugins opcionais, simplesmente exclua a(s) pasta(s) correspondente(s). Os recursos base do projeto de demonstração (instância do jogo, widgets, etc.) não fazem referência direta a esses módulos, portanto, excluí‑los não causará erros de referência de ativos. A interface de configuração ocultará automaticamente qualquer provedor cuja pasta esteja ausente.

nota

Essa modularidade se aplica apenas aos provedores de LLM e TTS. Reconhecimento de Fala (Runtime Speech Recognizer) e Sincronização Labial (Runtime MetaHuman Lip Sync) fazem parte do projeto base da demonstração e são sempre obrigatórios.

Estrutura de pastas dos módulos

atenção

Na primeira execução, o Unreal pode perguntar se deseja desabilitar plugins opcionais ausentes – clique em Sim. Certifique‑se de também ter excluído a pasta Content/Modules/ correspondente (veja acima).

Layout do Projeto de Demonstração

UI é para fins de demonstração

A interface de usuário mostrada abaixo é construída inteiramente com UMG (Unreal Motion Graphics) e destina‑se exclusivamente a demonstrar o pipeline – reconhecimento de fala → LLM → TTS → sincronização labial. Você é livre para reestilizá‑la ou substituí‑la para combinar com o design visual do seu jogo, esquema de controle ou plataforma (VR/AR, dispositivos móveis, consoles, etc.). Se determinados widgets não forem necessários em seu caso de uso, você também pode simplesmente ocultá‑los (por exemplo, definir sua visibilidade como Collapsed ou Hidden).

Visão geral da tela principal do projeto de demonstração

ÁreaO que há
CentroO personagem MetaHuman.
Lado esquerdoQuatro botões de configuração (Reconhecimento de Fala, Chatbot de IA, Texto para Fala, Animações), descritos em detalhes abaixo.
Centro inferiorUm botão Iniciar Gravação. Clique nele para começar uma conversa por voz: seu microfone é capturado, transcrito, enviado ao LLM, a resposta é sintetizada via TTS e reproduzida com sincronização labial, totalmente mãos‑livres.
Centro direitoUm widget de histórico de conversa mostrando toda a troca entre você e a IA (mensagens do usuário e do assistente). Ele também inclui um campo de entrada de texto, para que você possa digitar mensagens diretamente sem usar o reconhecimento de fala, útil para testes, para acessibilidade ou quando um microfone não estiver disponível.
dica

Você pode misturar os dois modos de entrada livremente na mesma sessão – falar algumas mensagens, digitar outras.

Botões de Configuração

Os quatro botões de configuração à esquerda abrem painéis dedicados para cada parte do pipeline:

1. Configurar Reconhecimento de Fala

Configurar como a voz do usuário é capturada e transcrita:

  • Selecionar idioma
  • Ajustar parâmetros de reconhecimento de fala (configurações do modelo Whisper)
  • Configurar AEC (Cancelamento de Eco Acústico)
  • Configurar VAD (Detecção de Atividade de Voz)

Tela de configuração de reconhecimento de fala

2. Configurar Chatbot de IA

Escolha seu provedor de LLM e configure‑o:

  • Selecionar provedor (Runtime AI Chatbot Integrator ou Runtime Local LLM)
  • Para provedores externos: token de autenticação, nome do modelo, etc.
  • Para LLM local: selecionar um modelo GGUF, definir o tamanho do contexto e outros parâmetros de inferência. Você também pode baixar seu próprio modelo GGUF em tempo de execução diretamente da demonstração (por exemplo, por URL) e usá‑lo imediatamente sem recompilar o projeto.
dica

A caixa de combinação de provedor mostra apenas provedores cuja pasta de módulo do plugin está presente em Content/Modules/.

Configuração do chatbot de IA - Runtime AI Chatbot Integrator (LLM externo)

Configuração do chatbot de IA - Runtime Local LLM (GGUF local)

3. Configurar Texto para Fala

Escolha seu provedor de TTS e configure vozes/modelos:

  • Selecionar provedor (Runtime AI Chatbot Integrator para OpenAI/ElevenLabs, ou Runtime Text To Speech para Piper/Kokoro locais)
  • Selecionar voz/modelo
  • Ajustar parâmetros específicos do provedor

Configuração de TTS - Runtime AI Chatbot Integrator (TTS externo)

Configuração de TTS - Runtime Local Text To Speech (Piper/Kokoro locais)

4. Configurar Animações

Controle os visuais do seu NPC de IA:

  • Escolher entre 3 personagens MetaHuman pré‑baixados (Aera, Ada, Orlando)
  • Selecionar modelo de sincronização labial (Standard ou Realistic)
  • Selecionar tipo de modelo de sincronização labial – Highly Optimized, Semi‑Optimized ou Original (veja Tipo de Modelo)
  • Ajustar Tamanho do Chunk de Processamento – controla com que frequência a inferência de sincronização labial é executada (veja Tamanho do Chunk de Processamento)
  • Selecionar uma animação de espera para tocar no MetaHuman durante a conversa

Tela de configuração de animações

Pré‑configurando a Demonstração no Editor

Ao trabalhar com a versão fonte, você pode preencher previamente os padrões diretamente no editor para que os valores não precisem ser reinseridos a cada execução:

O quêOnde
Configurações gerais (modelo de sincronização labial, animação de espera, classe de personagem, reconhecimento de fala, etc.)Content/LipSyncSTSGameInstance
Configurações de LLM externo / TTS externo (Runtime AI Chatbot Integrator)Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider
Configurações de LLM local (Runtime Local LLM)Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider
Configurações de TTS local (Runtime Text To Speech)Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider

Notas sobre Multiplataforma

Todos os plugins usados pela demonstração suportam Windows, Mac, Linux, iOS, Android e plataformas baseadas em Android (incluindo Meta Quest), portanto, o projeto de demonstração funciona em todos eles também.

Para dispositivos mais fracos (móvel, VR standalone), você pode querer:

  • Usar o modelo de sincronização labial Standard em vez do Realistic – veja a Comparação de modelos
  • Mudar para o tipo de modelo Highly Optimized
  • Aumentar o Tamanho do Chunk de Processamento para reduzir a carga da CPU
  • Escolher modelos LLM / TTS menores

Veja Configuração específica da plataforma para etapas adicionais de configuração no Android, iOS, Mac e Linux.

Trazendo Seu Próprio MetaHuman

O projeto de demonstração vem com três personagens MetaHuman de amostra (Aera, Ada, Orlando), mas você pode importar seu próprio MetaHuman e usá‑lo na demonstração.

📺 Tutorial em vídeo: Adicionando um Personagem MetaHuman Personalizado ao Projeto de Demonstração

nota

O plugin Runtime MetaHuman Lip Sync em si oferece suporte a muitos outros sistemas de personagens além dos MetaHumans (personagens baseados em ARKit, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe, etc. – veja o Guia de Configuração de Personagens Personalizados).

Notas para o Modelo de Sincronização Labial Standard

Se você planeja usar o modelo Standard (em vez do Realistic) em qualquer um dos projetos de demonstração, você precisará instalar o plugin Standard Lip Sync Extension. Veja Standard Model Extension para instruções de instalação.

Precisa de Ajuda?

Se você encontrar problemas ao configurar ou executar os projetos de demonstração, sinta‑se à vontade para entrar em contato:

Join our Discord
online · support

Para solicitações de desenvolvimento personalizado (por exemplo, estender a demonstração com sua própria lógica, adaptá-la para uma plataforma específica ou pipeline de personagens), entre em contato com [email protected].