Saltar al contenido principal

Proyectos de demostración

Para ayudarlo a comenzar rápidamente con Runtime MetaHuman Lip Sync, dos proyectos de demostración listos para usar están disponibles. Ambos están construidos con Unreal Engine 5.6 (y son compatibles con UE 5.7+), son solo con Blueprint, y se ejecutan multiplataforma en Windows, Mac, Linux, iOS, Android y plataformas basadas en Android (incluido Meta Quest).

Proyectos de demostración disponibles

Un flujo de trabajo conversacional completo de IA para NPC que combina reconocimiento de voz, un chatbot de IA (LLM), texto a voz y reproducción de audio con sincronización labial en tiempo real, todo funcionando junto en un solo proyecto.

Resumen del flujo de trabajo

🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback

Video destacado

Descargas

Plugins requeridos y opcionales

El proyecto demo es modular, solo necesitas los plugins de los proveedores que quieras usar.

PluginPropósitoRequerido?
Runtime MetaHuman Lip SyncAnimación de sincronización labial✅ Siempre
Runtime Audio ImporterCaptura y procesamiento de audio✅ Siempre
Runtime Speech RecognizerReconocimiento de voz sin conexión (whisper.cpp)✅ Siempre
Runtime AI Chatbot IntegratorLLMs externos (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) y/o TTS externo (OpenAI, ElevenLabs)🔶 Opcional*
Runtime Local LLMInferencia de LLM local mediante llama.cpp (modelos Llama, Mistral, Gemma, etc, GGUF)🔶 Opcional*
Runtime Text To SpeechTTS local mediante Piper y Kokoro🔶 Opcional*

* Necesitas al menos un proveedor de LLM y al menos un proveedor de TTS. Mezcla y combina libremente (ej.: LLM local + TTS de ElevenLabs, o LLM de OpenAI + TTS local).

Arquitectura modular

El proyecto demo es completamente modular. En la carpeta Content encontrarás una carpeta Modules que contiene tres subcarpetas:

Content/
└── Modules/
├── RuntimeAIChatbotIntegrator/ ← External LLMs and/or external TTS
├── RuntimeLocalLLM/ ← Local LLM via llama.cpp
└── RuntimeTextToSpeech/ ← Local TTS via Piper/Kokoro

Si no adquiriste uno (o más) de los complementos opcionales, simplemente elimina la(s) carpeta(s) correspondiente(s). Los activos base del proyecto de demostración (instancia de juego, widgets, etc.) no hacen referencia directa a estos módulos, por lo que eliminarlos no causará errores de referencia de activos. La interfaz de configuración ocultará automáticamente cualquier proveedor cuya carpeta falte.

nota

Esta modularidad se aplica solo a los proveedores de LLM y TTS. El Reconocimiento de Voz (Runtime Speech Recognizer) y la Sincronización Labial (Runtime MetaHuman Lip Sync) son parte del proyecto de demostración base y siempre son necesarios.

Estructura de carpetas de módulos

aviso

En el primer lanzamiento, Unreal puede preguntar si se deben desactivar los complementos opcionales faltantes: haz clic en . Asegúrate de haber eliminado también la carpeta Content/Modules/ correspondiente (ver arriba).

Diseño del Proyecto de Demostración

La interfaz de usuario es para fines de demostración

La interfaz de usuario que se muestra a continuación está construida completamente con UMG (Unreal Motion Graphics) y tiene como único propósito demostrar el flujo de trabajo – reconocimiento de voz → LLM → TTS → sincronización labial. Eres libre de rediseñarla o reemplazarla para que coincida con el diseño visual de tu juego, esquema de control o plataforma (VR/AR, móvil, consola, etc.). Si ciertos widgets no son necesarios en tu caso de uso, también puedes simplemente ocultarlos (por ejemplo, estableciendo su visibilidad en Collapsed o Hidden).

Resumen anotado de la pantalla principal del proyecto de demostración

ÁreaQué hay
CentroEl personaje MetaHuman.
Lado izquierdoCuatro botones de configuración (Reconocimiento de Voz, Chatbot de IA, Texto a Voz, Animaciones), descritos en detalle más abajo.
Centro inferiorUn botón Start Recording. Haz clic en él para iniciar una conversación por voz: tu micrófono se captura, se transcribe, se envía al LLM, la respuesta se sintetiza a través de TTS y se reproduce con sincronización labial, completamente manos libres.
Centro derechoUn widget de historial de conversaciones que muestra el ida y vuelta completo entre tú y la IA (tanto los mensajes del usuario como los del asistente). También incluye un campo de entrada de texto, para que puedas escribir mensajes directamente sin usar el reconocimiento de voz, útil para pruebas, accesibilidad o cuando no hay micrófono disponible.
tip

Puedes mezclar ambos modos de entrada libremente en la misma sesión: hablar algunos mensajes, escribir otros.

Botones de Configuración

Los cuatro botones de configuración de la izquierda abren paneles dedicados para cada parte del flujo:

1. Configurar reconocimiento de voz

Configura cómo se captura y transcribe la voz del usuario:

  • Seleccionar idioma
  • Ajustar parámetros de reconocimiento de voz (configuración del modelo Whisper)
  • Configurar AEC (Cancelación de Eco Acústico)
  • Configurar VAD (Detección de Actividad de Voz)

Pantalla de configuración del reconocimiento de voz

2. Configurar chatbot de IA

Elige tu proveedor de LLM y configúralo:

  • Seleccionar proveedor (Runtime AI Chatbot Integrator o Runtime Local LLM)
  • Para proveedores externos: token de autenticación, nombre del modelo, etc.
  • Para LLM local: seleccionar un modelo GGUF, establecer tamaño de contexto y otros parámetros de inferencia. También puedes descargar tu propio modelo GGUF en tiempo de ejecución directamente desde la demo (por ejemplo, mediante URL), y usarlo inmediatamente sin reconstruir el proyecto.
tip

El combo de proveedores solo muestra aquellos cuya carpeta de módulo del complemento está presente en Content/Modules/.

Configuración de chatbot de IA - Runtime AI Chatbot Integrator (LLM externo)

Configuración de chatbot de IA - Runtime Local LLM (GGUF local)

3. Configurar texto a voz

Elige tu proveedor de TTS y configura voces/modelos:

  • Seleccionar proveedor (Runtime AI Chatbot Integrator para OpenAI/ElevenLabs, o Runtime Text To Speech para Piper/Kokoro locales)
  • Seleccionar voz/modelo
  • Ajustar parámetros específicos del proveedor

Configuración de TTS - Runtime AI Chatbot Integrator (TTS externo)

Configuración de TTS - Runtime Local Text To Speech (Piper/Kokoro local)

4. Configurar animaciones

Controla los aspectos visuales de tu NPC de IA:

  • Elegir entre 3 personajes MetaHuman pre-descargados (Aera, Ada, Orlando)
  • Seleccionar modelo de sincronización labial (Standard o Realistic)
  • Seleccionar tipo de modelo de sincronización labial – Highly Optimized, Semi-Optimized, u Original (ver Model Type)
  • Ajustar Processing Chunk Size – controla la frecuencia con la que se ejecuta la inferencia de sincronización labial (ver Processing Chunk Size)
  • Seleccionar una animación de reposo para reproducir en el MetaHuman durante la conversación

Pantalla de configuración de animaciones

Preconfigurar la Demo en el Editor

Al trabajar con la versión fuente, puedes predefinir valores predeterminados directamente en el editor para no tener que volver a ingresarlos cada vez que se ejecuta:

QuéDónde
Configuración general (modelo de sincronización labial, animación de reposo, clase de personaje, reconocimiento de voz, etc.)Content/LipSyncSTSGameInstance
Configuración de LLM externo / TTS externo (Runtime AI Chatbot Integrator)Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider
Configuración de LLM local (Runtime Local LLM)Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider
Configuración de TTS local (Runtime Text To Speech)Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider

Notas sobre compatibilidad multiplataforma

Todos los complementos utilizados por la demo son compatibles con Windows, Mac, Linux, iOS, Android y plataformas basadas en Android (incluyendo Meta Quest), por lo que el proyecto de demostración también funciona en todas ellas.

Para dispositivos menos potentes (móviles, VR independiente), puede que desees:

  • Usar el modelo de sincronización labial Standard en lugar de Realistic – consulta la comparación de modelos
  • Cambiar al tipo de modelo Highly Optimized
  • Aumentar el Processing Chunk Size para reducir la carga de la CPU
  • Elegir modelos LLM/TTS más pequeños

Consulta Platform-specific Configuration para pasos adicionales de configuración en Android, iOS, Mac y Linux.

Traer tu propio MetaHuman

El proyecto de demostración incluye tres personajes MetaHuman de muestra (Aera, Ada, Orlando), pero puedes importar tu propio MetaHuman y usarlo en la demo.

📺 Video tutorial: Agregar un personaje MetaHuman personalizado al proyecto de demostración

nota

El complemento Runtime MetaHuman Lip Sync en sí mismo admite muchos otros sistemas de personajes más allá de MetaHumans (personajes basados en ARKit, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe, etc.; consulta la Guía de configuración de personajes personalizados).

Notas para el modelo de sincronización labial Standard

Si planea usar el Modelo Standard (en lugar de Realistic) en cualquiera de los proyectos de demostración, deberá instalar el complemento Standard Lip Sync Extension. Consulte Standard Model Extension para obtener instrucciones de instalación.

¿Necesitas ayuda?

Si encuentra algún problema al configurar o ejecutar los proyectos de demostración, no dude en contactarnos:

Join our Discord
online · support

Para solicitudes de desarrollo personalizado (p. ej., extender la demo con su propia lógica, adaptarla para una plataforma o canalización de personajes específica), contacte con [email protected].