Resumen

Runtime MetaHuman Lip Sync es un plugin que habilita la sincronización labial en tiempo real, sin conexión y multiplataforma tanto para personajes MetaHuman como personalizados. Te permite animar los labios de un personaje en respuesta a una entrada de audio de varias fuentes, incluyendo:
- Entrada de micrófono a través de la onda de sonido capturable de Runtime Audio Importer
- Voz sintetizada desde Runtime Text To Speech o Runtime AI Chatbot Integrator
- Datos de audio transmitidos o importados en múltiples formatos a través de Runtime Audio Importer
- Cualquier dato de audio en formato PCM de punto flotante (un array de muestras de punto flotante)
El plugin genera internamente visemas (representaciones visuales de fonemas) basándose en la entrada de audio. Dado que funciona directamente con datos de audio en lugar de texto, el plugin admite entrada multilingüe incluyendo, entre otros, inglés, español, francés, alemán, japonés, chino, coreano, ruso, italiano, portugués, árabe e hindi. Literalmente, cualquier idioma es compatible, ya que la sincronización labial se genera a partir de fonemas de audio en lugar de un procesamiento de texto específico del idioma.
El Modelo Estándar produce 14 visemas y realiza la animación de sincronización labial utilizando un activo de pose predefinido. En contraste, los Modelos Realistas (exclusivos para personajes MetaHuman) generan 81 cambios de control facial sin depender de un activo de pose predefinido, lo que resulta en animaciones faciales significativamente más realistas.
Compatibilidad de Personajes
A pesar de su nombre, Runtime MetaHuman Lip Sync funciona con una amplia gama de personajes más allá de los MetaHumans:
Sistemas de Personajes Comerciales Populares
- Personajes Daz Genesis 8/9
- Personajes Reallusion Character Creator 3/4 (CC3/CC4)
- Personajes Mixamo
- Avatares ReadyPlayerMe
Soporte de Estándares de Animación
- Sistemas de blendshapes basados en FACS
- Estándar de blendshapes Apple ARKit
- Conjuntos de fonemas Preston Blair
- Sistemas de fonemas 3ds Max
- Cualquier personaje con objetivos de morfos personalizados para expresiones faciales
Para instrucciones detalladas sobre cómo usar el plugin con personajes que no son MetaHuman, consulta la Guía de Configuración de Personajes Personalizados.
Vista Previa de Animación
Echa un vistazo a estas animaciones cortas para ver la calidad de la animación de sincronización labial producida por el plugin en diferentes tipos de personajes y modelos:
Características Principales
- Sincronización labial en tiempo real desde entrada de micrófono
- Soporte para procesamiento de audio sin conexión
- Compatibilidad multiplataforma con soporte específico por plataforma para el modelo
- Soporte para múltiples sistemas de personajes y estándares de animación
- Mapeo flexible de visemas para personajes personalizados
- Soporte de idioma universal: funciona con cualquier idioma hablado mediante análisis de audio
- Animación facial consciente del estado de ánimo para una mayor expresividad
- Tipos de salida configurables (cara completa o solo controles de la boca)
Modelos de Sincronización Labial
El plugin ofrece múltiples modelos de sincronización labial para adaptarse a las diferentes necesidades del proyecto:
- Standard Model
- Realistic Model
- Mood-Enabled Realistic Model
El modelo de sincronización labial estándar ofrece un rendimiento eficiente y multiplataforma con amplia compatibilidad de personajes:
- Funciona con MetaHumans y todo tipo de personajes personalizados
- Optimizado para rendimiento en tiempo real
- Requisitos de recursos más bajos
- Soporte de Plataforma: Windows, Android, plataformas basadas en Android (incluyendo Meta Quest)
Para usar el Standard Model, necesitas instalar un plugin de extensión adicional. Consulta la sección de Prerrequisitos para obtener instrucciones de instalación.
El modelo de sincronización labial realista ofrece una fidelidad visual mejorada específicamente para personajes MetaHuman:
- Compatible con MetaHuman y personajes basados en ARKit con animación facial avanzada (81 controles faciales)
- Mayor calidad visual con movimientos de boca más naturales
- Requisitos de rendimiento ligeramente superiores
- Procesamiento de audio en streaming para aplicaciones en tiempo real
- Ideal para experiencias cinematográficas e interacciones de personajes en primer plano
- Tres niveles de optimización: Original, Semi-Optimizado y Altamente Optimizado
- Conjuntos de morph targets configurables (ver Selección del Conjunto de Morph Targets)
- Soporte de Plataforma: Windows, Mac, iOS, Linux, Android, plataformas basadas en Android (incluyendo Meta Quest)
El Realistic Model está incluido en el plugin principal y no requiere extensiones adicionales para su uso.
El modelo realista con estado de ánimo proporciona animación facial consciente de las emociones para personajes MetaHuman:
- Compatible con MetaHuman y personajes basados en ARKit con animación facial sensible al estado de ánimo (81 controles faciales)
- 12 tipos de estado de ánimo diferentes (Neutral, Feliz, Triste, Seguro, etc.)
- Intensidad del estado de ánimo configurable (0.0 a 1.0)
- Tiempo de anticipación ajustable para una mejor sincronización (20ms a 200ms)
- Tipos de salida seleccionables: Controles de Cara Completa o Solo Boca
- Procesamiento de audio en streaming para aplicaciones en tiempo real
- Conjuntos de morph targets configurables (ver Selección del Conjunto de Morph Targets)
- Soporte de Plataforma: Windows, Mac, iOS, Linux, Android, plataformas basadas en Android (incluyendo Meta Quest)
El Mood-Enabled Realistic Model está incluido en el plugin principal y no requiere extensiones adicionales para su uso.
Puedes elegir el modelo apropiado según los requisitos de tu proyecto en cuanto a rendimiento, compatibilidad de personajes, calidad visual, plataforma objetivo y necesidades de características.
Cómo Funciona
El plugin procesa la entrada de audio de la siguiente manera:
- Los datos de audio se reciben en formato PCM de punto flotante con canales y frecuencia de muestreo especificados
- El plugin procesa el audio para generar datos de control facial o visemas dependiendo del modelo
- Para los modelos con estado de ánimo, se aplica el contexto emocional a la animación facial
- Los datos de animación impulsan los movimientos faciales del personaje en tiempo real
Arquitectura de Rendimiento
Runtime MetaHuman Lip Sync utiliza inferencia solo por CPU para ofrecer resultados de sincronización labial consistentes y de baja latencia, adecuados para aplicaciones en tiempo real. Por defecto, el plugin realiza el procesamiento de sincronización labial cada 10 milisegundos (ajustable - ver Configuración del Plugin para todos los ajustes disponibles, incluidos Tamaño del Fragmento de Procesamiento, recuento de hilos y otros parámetros de rendimiento).
Descripción General de la Arquitectura del Modelo
Los modelos de sincronización labial utilizan una red neuronal compacta basada en transformadores que procesa el audio mediante análisis de mel-espectrograma. Esta arquitectura ligera está diseñada específicamente para rendimiento en tiempo real con inferencia eficiente en CPU y una huella de memoria mínima.
¿Por Qué Inferencia por CPU?
Para operaciones de inferencia pequeñas y frecuentes, como la sincronización labial en tiempo real, el procesamiento por CPU ofrece mejores características de latencia que la GPU. Con un tamaño de lote de 1 e intervalos de inferencia de 10-100ms, la sobrecarga de la GPU por transferencias PCIe y lanzamientos de kernel a menudo excede el tiempo real de cálculo. Además, en los motores de juego la GPU ya está saturada con renderizado, shaders y física, creando una contención de recursos que introduce picos de latencia impredecibles.
Compatibilidad de Hardware
El plugin funciona eficientemente en la mayoría de las CPU de nivel medio y superior sin requerir hardware gráfico dedicado, proporcionando rendimiento en tiempo real en plataformas de escritorio, móviles y de RV. Para hardware más débil, puedes ajustar el Tipo de Modelo a Semi-Optimizado o Altamente Optimizado, o aumentar el Tamaño del Fragmento de Procesamiento para mantener el rendimiento en tiempo real con una capacidad de respuesta ligeramente reducida.
Inicio Rápido
Aquí tienes una configuración básica para habilitar la sincronización labial en tu personaje:
- Para personajes MetaHuman, sigue la Guía de Configuración
- Para personajes personalizados, sigue la Guía de Configuración para Personajes Personalizados
- Elige y configura tu modelo de sincronización labial preferido
- Configura el procesamiento de entrada de audio en tu Blueprint
- Conecta el nodo de sincronización labial apropiado en el Animation Blueprint
- ¡Reproduce audio y observa a tu personaje hablar con emoción!
Recursos Adicionales
📦 Descargas y Enlaces
Proyectos de Demostración:
- Demostración de Voz a Voz (Flujo de Trabajo de IA Completo):
- Descargar demostración empaquetada (Windows) ⭐ NUEVO
- Descargar archivos fuente (UE 5.6+) ⭐ NUEVO
- Flujo de trabajo completo: reconocimiento de voz + chatbot de IA + TTS + sincronización labial
- Requiere: Este plugin + Runtime Audio Importer + Runtime Speech Recognizer + Runtime AI Chatbot Integrator, opcional: Runtime Text To Speech
- Demostración Básica de Sincronización Labial:
- Descargar demostración empaquetada (Windows)
- Descargar archivos fuente (UE 5.6+)
- Flujos de trabajo básicos: entrada de micrófono, archivos de audio, TTS
- Requiere: Este plugin + Runtime Audio Importer, opcional: Text To Speech / AI Chatbot
- El modelo estándar requiere un pequeño plugin de extensión (ver aquí)
🎥 Tutoriales en Video
Demostraciones Destacadas:
- Demostración de Asistente de IA de Voz a Voz ⭐ NUEVO
- Demostración del Realistic Model – Precisión Mejorada
Tutoriales del Realistic Model (Alta Calidad):
- Sincronización Labial de Alta Calidad con Control de Estado de Ánimo y TTS Local
- Sincronización Labial de Alta Calidad con ElevenLabs y OpenAI TTS
- Sincronización Labial en Vivo de Alta Calidad con Micrófono
Tutoriales del Standard Model:
- Sincronización Labial en Vivo Estándar con Micrófono
- Sincronización Labial Estándar con Texto a Voz Local
- Sincronización Labial Estándar con ElevenLabs y OpenAI TTS
Configuración General:
- Agregar un Personaje MetaHuman Personalizado al Proyecto de Demostración ⭐ NUEVO
- Video tutorial de configuración
- Recorrido por el proyecto de demostración (más antiguo)
💬 Soporte
- Desarrollo Personalizado: [email protected] (soluciones a medida para equipos y organizaciones)