Proyectos de demostración

Para ayudarte a empezar rápidamente con Runtime MetaHuman Lip Sync, hay dos proyectos de demostración listos para usar. Ambos están creados con Unreal Engine 5.6+, son proyectos exclusivamente con Blueprints y se ejecutan multiplataforma en Windows, Mac, Linux, iOS, Android y plataformas basadas en Android (incluido Meta Quest).

Proyectos de demostración disponibles

AI Conversational NPC / Interactive Avatar
Demo de sincronización labial básica

Un flujo de trabajo completo de avatar conversacional con IA que combina reconocimiento de voz, un chatbot de IA (LLM), texto a voz y reproducción de audio con sincronización labial en tiempo real, todo funcionando junto en un solo proyecto. Adecuado para una amplia gama de casos de uso — incluyendo quioscos interactivos, producción virtual, instalaciones de museos, asistentes digitales, simulaciones de entrenamiento y juegos.

Resumen del pipeline

🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback

Vídeos

Vista previa rápida (~30 s)

Una breve muestra de la demo en acción.

Recorrido completo

Un recorrido detallado que cubre la configuración, la instalación y el flujo conversacional completo.

Descargas

Complementos requeridos y opcionales

El proyecto de demo es modular: solo necesitas los complementos de los proveedores que desees utilizar.

Complemento	Propósito	¿Requerido?
Runtime MetaHuman Lip Sync	Animación de sincronización labial	✅ Siempre
Runtime Audio Importer	Captura y procesamiento de audio	✅ Siempre
Runtime Speech Recognizer	Reconocimiento de voz sin conexión (whisper.cpp)	✅ Siempre
Runtime AI Chatbot Integrator	LLMs externos (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) y/o TTS externos (OpenAI, ElevenLabs)	🔶 Opcional
Runtime Local LLM	Inferencia LLM local mediante llama.cpp (modelos GGUF de Llama, Mistral, Gemma, etc.)	🔶 Opcional
Runtime Text To Speech	TTS local mediante Piper y Kokoro	🔶 Opcional

Complementos opcionales - requisitos del proveedor

Aunque cada complemento anterior es individualmente opcional, necesitas al menos un proveedor LLM y al menos un proveedor TTS para que la demo funcione. Puedes combinar libremente (ej. LLM local + TTS de ElevenLabs, o LLM de OpenAI + TTS local).

Arquitectura modular

En la carpeta Content encontrarás una carpeta Modules que contiene tres subcarpetas:

Content/
└── Modules/
    ├── RuntimeAIChatbotIntegrator/   ← External LLMs and/or external TTS
    ├── RuntimeLocalLLM/              ← Local LLM via llama.cpp
    └── RuntimeTextToSpeech/          ← Local TTS via Piper/Kokoro

Si no adquiriste uno (o más) de los complementos opcionales, simplemente elimina la(s) carpeta(s) correspondiente(s). Los assets base del proyecto de demostración (instancia del juego, widgets, etc.) no hacen referencia directa a estos módulos, por lo que eliminarlos no causará errores de referencia de assets. La UI de configuración ocultará automáticamente cualquier proveedor cuya carpeta no esté presente.

nota

Esta modularidad se aplica solo a los proveedores de LLM y TTS. Reconocimiento de Voz (Runtime Speech Recognizer) y Sincronización labial (Runtime MetaHuman Lip Sync) son parte del proyecto demo base y siempre son necesarios.

Estructura de la carpeta de módulos

aviso

Al iniciar por primera vez, Unreal puede preguntar si deseas deshabilitar los complementos opcionales que falten - haz clic en Yes. Asegúrate de haber eliminado también la carpeta Content/Modules/ correspondiente (ver arriba).

Estructura del proyecto demo

La UI es para fines de demostración

La interfaz de usuario mostrada a continuación está construida completamente con UMG (Unreal Motion Graphics) y está destinada únicamente a demostrar el pipeline - reconocimiento de voz → LLM → TTS → sincronización labial. Eres libre de rediseñarla o reemplazarla para que coincida con el diseño visual de tu proyecto, esquema de control o plataforma (VR/AR, móvil, consola, quiosco, etc.). Si ciertos widgets no son necesarios en tu caso de uso, también puedes ocultarlos (por ejemplo, establecer su visibilidad a Collapsed o Hidden).

Descripción general anotada de la pantalla principal del proyecto demo

Área	Qué hay
Centro	El personaje MetaHuman.
Lado izquierdo	Cuatro botones de configuración (Reconocimiento de Voz, Chatbot de IA, Texto a Voz, Animaciones), descritos en detalle más abajo.
Centro inferior	Un botón Start Recording. Haz clic en él para iniciar una conversación por voz: tu micrófono se captura, se transcribe, se envía al LLM, la respuesta se sintetiza mediante TTS y se reproduce con sincronización labial, completamente manos libres.
Centro derecho	Un widget de historial de conversación que muestra el ida y vuelta completo entre tú y la IA (tanto mensajes del usuario como del asistente). También incluye un campo de entrada de texto, para que puedas escribir mensajes directamente sin usar reconocimiento de voz, útil para pruebas, accesibilidad o cuando no hay un micrófono disponible.

tip

Puedes mezclar ambos modos de entrada libremente en la misma sesión - habla algunos mensajes, escribe otros.

Botones de configuración

Los cuatro botones de configuración a la izquierda abren paneles dedicados para cada parte del pipeline:

1. Configurar reconocimiento de voz

Configura cómo se captura y transcribe la voz del usuario:

Selecciona el idioma
Ajusta parámetros de reconocimiento de voz (configuración del modelo Whisper)
Configura AEC (Cancelación de eco acústico)
Configura VAD (Detección de actividad de voz)

Pantalla de configuración de reconocimiento de voz

2. Configurar Chatbot de IA

Elige tu proveedor de LLM y configúralo:

Selecciona proveedor (Runtime AI Chatbot Integrator o Runtime Local LLM)
Para proveedores externos: token de autenticación, nombre del modelo, etc.
Para LLM local: selecciona un modelo GGUF, establece tamaño de contexto y otros parámetros de inferencia. También puedes descargar tu propio modelo GGUF en tiempo de ejecución directamente desde el demo (por ejemplo, mediante URL), y usarlo inmediatamente sin reconstruir el proyecto.

tip

El combobox de proveedor solo muestra los proveedores cuya carpeta de módulo del complemento está presente en Content/Modules/.

Configuración del chatbot de IA - Runtime AI Chatbot Integrator (LLM externo)

Configuración del chatbot de IA - Runtime Local LLM (GGUF local)

3. Configurar Texto a Voz

Elige tu proveedor de TTS y configura voces/modelos:

Selecciona proveedor (Runtime AI Chatbot Integrator para OpenAI/ElevenLabs, o Runtime Text To Speech para Piper/Kokoro local)
Selecciona voz/modelo
Ajusta parámetros específicos del proveedor

Configuración de TTS - Runtime AI Chatbot Integrator (TTS externo)

Configuración de TTS - Runtime Local Text To Speech (Piper/Kokoro local)

4. Configurar Animaciones

Controla las visuales de tu avatar de IA:

Elige entre 3 personajes MetaHuman pre-descargados (Aera, Ada, Orlando)
Selecciona modelo de sincronización labial (Estándar o Realista)
Selecciona tipo de modelo de sincronización labial - Highly Optimized, Semi-Optimized u Original (ver Tipo de modelo)
Ajusta Tamaño de fragmento de procesamiento - controla con qué frecuencia se ejecuta la inferencia de sincronización labial (ver Tamaño de fragmento de procesamiento)
Selecciona una animación inactiva para reproducir en el MetaHuman durante la conversación

Pantalla de configuración de animaciones

Preconfigurando el Demo en el Editor

Al trabajar con la versión fuente, puedes pre-llenar valores predeterminados directamente en el editor para que no necesites volver a introducirlos en cada ejecución:

Qué	Dónde
Configuración general (modelo de sincronización labial, animación inactiva, clase de personaje, reconocimiento de voz, etc)	`Content/LipSyncSTSGameInstance`
Configuración de LLM externo / TTS externo (Runtime AI Chatbot Integrator)	`Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider`
Configuración de LLM local (Runtime Local LLM)	`Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider`
Configuración de TTS local (Runtime Text To Speech)	`Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider`

Notas multiplataforma

Todos los complementos utilizados por el demo son compatibles con Windows, Mac, Linux, iOS, Android y plataformas basadas en Android (incluyendo Meta Quest), por lo que el proyecto demo también funciona en todas ellas. Esto lo hace adecuado para despliegue en una amplia variedad de entornos — desde quioscos de escritorio y experiencias basadas en navegador hasta aplicaciones móviles, visores VR independientes y configuraciones de producción virtual en set.

Para dispositivos más débiles (móvil, VR independiente), quizás quieras:

Usar el modelo de sincronización labial estándar en lugar del Realista - ver Comparación de modelos
Cambiar al tipo de modelo Highly Optimized
Aumentar el Tamaño de fragmento de procesamiento para reducir la carga de CPU
Elegir modelos LLM / TTS más pequeños

Ver Configuración específica por plataforma para pasos adicionales de configuración en Android, iOS, Mac y Linux.

Traer tu propio personaje

El proyecto demo incluye tres personajes MetaHuman de muestra (Aera, Ada, Orlando), pero puedes importar tu propio MetaHuman y usarlo en el demo.

📺 Video tutorial: Añadir un personaje MetaHuman personalizado al proyecto demo

nota

El complemento Runtime MetaHuman Lip Sync en sí mismo soporta muchos otros sistemas de personajes más allá de MetaHumans (personajes basados en ARKit, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe, etc - ver la Guía de configuración de personajes personalizados). Ya sea que estés construyendo un NPC de juego, un presentador virtual, un asistente de quiosco o un humano digital para producción virtual, el complemento se adapta a tu pipeline de personajes.

Un proyecto demo más sencillo que se enfoca puramente en la característica de sincronización labial en sí, sin el flujo de trabajo conversacional completo de IA. Adecuado si solo quieres ver la sincronización labial en acción con varias fuentes de audio.

Video destacado

Descargas

Qué incluye

Este demo muestra los flujos de trabajo básicos de sincronización labial:

Entrada de micrófono - sincronización labial en tiempo real desde audio en vivo
Reproducción de archivo de audio - sincronización labial desde archivos de audio importados
Texto a voz - sincronización labial impulsada por voz sintetizada

Complementos requeridos y opcionales

Complemento	Propósito	¿Requerido?
Runtime MetaHuman Lip Sync	Animación de sincronización labial	✅ Requerido
Runtime Audio Importer	Importación y captura de audio	✅ Requerido
Runtime Text To Speech	TTS local para la escena de demo TTS	🔶 Opcional
Runtime AI Chatbot Integrator	Proveedores de TTS externos (OpenAI, ElevenLabs)	🔶 Opcional

Notas para el modelo de sincronización labial estándar

Si planeas usar el Modelo Estándar (en lugar del Realista) en cualquiera de los proyectos demo, necesitarás instalar el complemento Standard Lip Sync Extension. Consulta Extensión del modelo estándar para obtener instrucciones de instalación.

¿Necesitas ayuda?

Si encuentras algún problema al configurar o ejecutar los proyectos demo, no dudes en contactarnos:

Join our Discord

online · support

Para solicitudes de desarrollo personalizado (p. ej., ampliar la demo con tu propia lógica, adaptarla para una plataforma específica o un pipeline de personajes), contacta con [email protected].