Proyectos de demostración
Para ayudarlo a comenzar rápidamente con Runtime MetaHuman Lip Sync, dos proyectos de demostración listos para usar están disponibles. Ambos están construidos con Unreal Engine 5.6 (y son compatibles con UE 5.7+), son solo con Blueprint, y se ejecutan multiplataforma en Windows, Mac, Linux, iOS, Android y plataformas basadas en Android (incluido Meta Quest).
Proyectos de demostración disponibles
- AI Conversational NPC
- Basic Lip Sync Demo
Un flujo de trabajo conversacional completo de IA para NPC que combina reconocimiento de voz, un chatbot de IA (LLM), texto a voz y reproducción de audio con sincronización labial en tiempo real, todo funcionando junto en un solo proyecto.
Resumen del flujo de trabajo
🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback
Video destacado
Descargas
Plugins requeridos y opcionales
El proyecto demo es modular, solo necesitas los plugins de los proveedores que quieras usar.
| Plugin | Propósito | Requerido? |
|---|---|---|
| Runtime MetaHuman Lip Sync | Animación de sincronización labial | ✅ Siempre |
| Runtime Audio Importer | Captura y procesamiento de audio | ✅ Siempre |
| Runtime Speech Recognizer | Reconocimiento de voz sin conexión (whisper.cpp) | ✅ Siempre |
| Runtime AI Chatbot Integrator | LLMs externos (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) y/o TTS externo (OpenAI, ElevenLabs) | 🔶 Opcional* |
| Runtime Local LLM | Inferencia de LLM local mediante llama.cpp (modelos Llama, Mistral, Gemma, etc, GGUF) | 🔶 Opcional* |
| Runtime Text To Speech | TTS local mediante Piper y Kokoro | 🔶 Opcional* |
* Necesitas al menos un proveedor de LLM y al menos un proveedor de TTS. Mezcla y combina libremente (ej.: LLM local + TTS de ElevenLabs, o LLM de OpenAI + TTS local).
Arquitectura modular
El proyecto demo es completamente modular. En la carpeta Content encontrarás una carpeta Modules que contiene tres subcarpetas:
Content/
└── Modules/
├── RuntimeAIChatbotIntegrator/ ← External LLMs and/or external TTS
├── RuntimeLocalLLM/ ← Local LLM via llama.cpp
└── RuntimeTextToSpeech/ ← Local TTS via Piper/Kokoro
Si no adquiriste uno (o más) de los complementos opcionales, simplemente elimina la(s) carpeta(s) correspondiente(s). Los activos base del proyecto de demostración (instancia de juego, widgets, etc.) no hacen referencia directa a estos módulos, por lo que eliminarlos no causará errores de referencia de activos. La interfaz de configuración ocultará automáticamente cualquier proveedor cuya carpeta falte.
Esta modularidad se aplica solo a los proveedores de LLM y TTS. El Reconocimiento de Voz (Runtime Speech Recognizer) y la Sincronización Labial (Runtime MetaHuman Lip Sync) son parte del proyecto de demostración base y siempre son necesarios.

En el primer lanzamiento, Unreal puede preguntar si se deben desactivar los complementos opcionales faltantes: haz clic en Sí. Asegúrate de haber eliminado también la carpeta Content/Modules/ correspondiente (ver arriba).
Diseño del Proyecto de Demostración
La interfaz de usuario que se muestra a continuación está construida completamente con UMG (Unreal Motion Graphics) y tiene como único propósito demostrar el flujo de trabajo – reconocimiento de voz → LLM → TTS → sincronización labial. Eres libre de rediseñarla o reemplazarla para que coincida con el diseño visual de tu juego, esquema de control o plataforma (VR/AR, móvil, consola, etc.). Si ciertos widgets no son necesarios en tu caso de uso, también puedes simplemente ocultarlos (por ejemplo, estableciendo su visibilidad en Collapsed o Hidden).

| Área | Qué hay |
|---|---|
| Centro | El personaje MetaHuman. |
| Lado izquierdo | Cuatro botones de configuración (Reconocimiento de Voz, Chatbot de IA, Texto a Voz, Animaciones), descritos en detalle más abajo. |
| Centro inferior | Un botón Start Recording. Haz clic en él para iniciar una conversación por voz: tu micrófono se captura, se transcribe, se envía al LLM, la respuesta se sintetiza a través de TTS y se reproduce con sincronización labial, completamente manos libres. |
| Centro derecho | Un widget de historial de conversaciones que muestra el ida y vuelta completo entre tú y la IA (tanto los mensajes del usuario como los del asistente). También incluye un campo de entrada de texto, para que puedas escribir mensajes directamente sin usar el reconocimiento de voz, útil para pruebas, accesibilidad o cuando no hay micrófono disponible. |
Puedes mezclar ambos modos de entrada libremente en la misma sesión: hablar algunos mensajes, escribir otros.
Botones de Configuración
Los cuatro botones de configuración de la izquierda abren paneles dedicados para cada parte del flujo:
1. Configurar reconocimiento de voz
Configura cómo se captura y transcribe la voz del usuario:
- Seleccionar idioma
- Ajustar parámetros de reconocimiento de voz (configuración del modelo Whisper)
- Configurar AEC (Cancelación de Eco Acústico)
- Configurar VAD (Detección de Actividad de Voz)

2. Configurar chatbot de IA
Elige tu proveedor de LLM y configúralo:
- Seleccionar proveedor (Runtime AI Chatbot Integrator o Runtime Local LLM)
- Para proveedores externos: token de autenticación, nombre del modelo, etc.
- Para LLM local: seleccionar un modelo GGUF, establecer tamaño de contexto y otros parámetros de inferencia. También puedes descargar tu propio modelo GGUF en tiempo de ejecución directamente desde la demo (por ejemplo, mediante URL), y usarlo inmediatamente sin reconstruir el proyecto.
El combo de proveedores solo muestra aquellos cuya carpeta de módulo del complemento está presente en Content/Modules/.


3. Configurar texto a voz
Elige tu proveedor de TTS y configura voces/modelos:
- Seleccionar proveedor (Runtime AI Chatbot Integrator para OpenAI/ElevenLabs, o Runtime Text To Speech para Piper/Kokoro locales)
- Seleccionar voz/modelo
- Ajustar parámetros específicos del proveedor


4. Configurar animaciones
Controla los aspectos visuales de tu NPC de IA:
- Elegir entre 3 personajes MetaHuman pre-descargados (Aera, Ada, Orlando)
- Seleccionar modelo de sincronización labial (Standard o Realistic)
- Seleccionar tipo de modelo de sincronización labial – Highly Optimized, Semi-Optimized, u Original (ver Model Type)
- Ajustar Processing Chunk Size – controla la frecuencia con la que se ejecuta la inferencia de sincronización labial (ver Processing Chunk Size)
- Seleccionar una animación de reposo para reproducir en el MetaHuman durante la conversación

Preconfigurar la Demo en el Editor
Al trabajar con la versión fuente, puedes predefinir valores predeterminados directamente en el editor para no tener que volver a ingresarlos cada vez que se ejecuta:
| Qué | Dónde |
|---|---|
| Configuración general (modelo de sincronización labial, animación de reposo, clase de personaje, reconocimiento de voz, etc.) | Content/LipSyncSTSGameInstance |
| Configuración de LLM externo / TTS externo (Runtime AI Chatbot Integrator) | Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider |
| Configuración de LLM local (Runtime Local LLM) | Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider |
| Configuración de TTS local (Runtime Text To Speech) | Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider |
Notas sobre compatibilidad multiplataforma
Todos los complementos utilizados por la demo son compatibles con Windows, Mac, Linux, iOS, Android y plataformas basadas en Android (incluyendo Meta Quest), por lo que el proyecto de demostración también funciona en todas ellas.
Para dispositivos menos potentes (móviles, VR independiente), puede que desees:
- Usar el modelo de sincronización labial Standard en lugar de Realistic – consulta la comparación de modelos
- Cambiar al tipo de modelo Highly Optimized
- Aumentar el Processing Chunk Size para reducir la carga de la CPU
- Elegir modelos LLM/TTS más pequeños
Consulta Platform-specific Configuration para pasos adicionales de configuración en Android, iOS, Mac y Linux.
Traer tu propio MetaHuman
El proyecto de demostración incluye tres personajes MetaHuman de muestra (Aera, Ada, Orlando), pero puedes importar tu propio MetaHuman y usarlo en la demo.
📺 Video tutorial: Agregar un personaje MetaHuman personalizado al proyecto de demostración
El complemento Runtime MetaHuman Lip Sync en sí mismo admite muchos otros sistemas de personajes más allá de MetaHumans (personajes basados en ARKit, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe, etc.; consulta la Guía de configuración de personajes personalizados).
Un proyecto de demostración más simple que se centra exclusivamente en la funcionalidad de sincronización labial, sin el flujo conversacional completo de IA. Adecuado si solo desea ver la sincronización labial en acción con varias fuentes de audio.
Video Destacado
Descargas
Qué incluye
Esta demo muestra los flujos de trabajo básicos de sincronización labial:
- Entrada de micrófono – sincronización labial en tiempo real desde audio en vivo
- Reproducción de archivos de audio – sincronización labial desde archivos de audio importados
- Texto a voz – sincronización labial impulsada por voz sintetizada
Complementos necesarios y opcionales
| Complemento | Propósito | ¿Requerido? |
|---|---|---|
| Runtime MetaHuman Lip Sync | Animación de sincronización labial | ✅ Requerido |
| Runtime Audio Importer | Importación y captura de audio | ✅ Requerido |
| Runtime Text To Speech | TTS local para la escena de demostración de TTS | 🔶 Opcional |
| Runtime AI Chatbot Integrator | Proveedores de TTS externos (OpenAI, ElevenLabs) | 🔶 Opcional |
Notas para el modelo de sincronización labial Standard
Si planea usar el Modelo Standard (en lugar de Realistic) en cualquiera de los proyectos de demostración, deberá instalar el complemento Standard Lip Sync Extension. Consulte Standard Model Extension para obtener instrucciones de instalación.
¿Necesitas ayuda?
Si encuentra algún problema al configurar o ejecutar los proyectos de demostración, no dude en contactarnos:
Para solicitudes de desarrollo personalizado (p. ej., extender la demo con su propia lógica, adaptarla para una plataforma o canalización de personajes específica), contacte con [email protected].