Saltar al contenido principal

Resumen

Documentación de Runtime MetaHuman Lip Sync

Runtime MetaHuman Lip Sync es un complemento que habilita la sincronización labial en tiempo real, sin conexión y multiplataforma tanto para personajes MetaHuman como personalizados. Te permite animar los labios de un personaje en respuesta a una entrada de audio de varias fuentes, incluyendo:

El complemento genera internamente visemas (representaciones visuales de fonemas) basándose en la entrada de audio. Dado que funciona directamente con datos de audio en lugar de texto, el complemento admite entrada multilingüe incluyendo, entre otros, inglés, español, francés, alemán, japonés, chino, coreano, ruso, italiano, portugués, árabe e hindi. Literalmente, cualquier idioma es compatible, ya que la sincronización labial se genera a partir de fonemas de audio en lugar de un procesamiento de texto específico del idioma.

El Modelo Estándar produce 14 visemas y realiza la animación de sincronización labial utilizando un activo de pose predefinido. En contraste, los Modelos Realistas (exclusivos para personajes MetaHuman) generan 81 cambios de control facial sin depender de un activo de pose predefinido, lo que resulta en animaciones faciales significativamente más realistas.

Compatibilidad de Personajes

A pesar de su nombre, Runtime MetaHuman Lip Sync funciona con una amplia gama de personajes más allá de los MetaHumans:

Sistemas de Personajes Comerciales Populares

  • Personajes Daz Genesis 8/9
  • Personajes Reallusion Character Creator 3/4 (CC3/CC4)
  • Personajes Mixamo
  • Avatares ReadyPlayerMe

Soporte de Estándares de Animación

  • Sistemas de blendshapes basados en FACS
  • Estándar de blendshapes Apple ARKit
  • Conjuntos de fonemas Preston Blair
  • Sistemas de fonemas 3ds Max
  • Cualquier personaje con objetivos de morfos personalizados para expresiones faciales

Para instrucciones detalladas sobre cómo usar el complemento con personajes que no son MetaHuman, consulta la Guía de Configuración de Personajes Personalizados.

Vista Previa de Animación

Echa un vistazo a estas animaciones cortas para ver la calidad de la animación de sincronización labial producida por el complemento en diferentes tipos de personajes y modelos:

Realistic Lip Sync Example
Modelo realista con personaje MetaHuman
Standard Lip Sync Example
Modelo estándar con personaje MetaHuman
Custom Character Lip Sync Example
Modelo estándar con personaje personalizado
Custom Character Lip Sync Example
Modelo estándar con personaje personalizado

Características Clave

  • Sincronización labial en tiempo real desde entrada de micrófono
  • Soporte para procesamiento de audio offline
  • Compatibilidad multiplataforma con soporte específico de plataforma para modelos
  • Soporte para múltiples sistemas de personajes y estándares de animación
  • Mapeo de visemas flexible para personajes personalizados
  • Soporte de idioma universal: funciona con cualquier idioma hablado mediante análisis de audio
  • Animación facial consciente del estado de ánimo para una mayor expresividad
  • Tipos de salida configurables (controles de cara completa o solo boca)

Modelos de Sincronización Labial

El plugin ofrece múltiples modelos de sincronización labial para adaptarse a las diferentes necesidades del proyecto:

El modelo de sincronización labial estándar proporciona un rendimiento eficiente y multiplataforma con amplia compatibilidad de personajes:

  • Funciona con MetaHumans y todo tipo de personajes personalizados
  • Optimizado para rendimiento en tiempo real
  • Requisitos de recursos más bajos
  • Compatibilidad total con TTS local (plugin Runtime Text To Speech)
  • Soporte de Plataforma: Windows, Android, plataformas basadas en Android (incluyendo Meta Quest)
Se Requiere Plugin de Extensión

Para usar el Modelo Estándar, necesitas instalar un plugin de extensión adicional. Consulta la sección de Prerrequisitos para instrucciones de instalación.

Puedes elegir el modelo apropiado según los requisitos de tu proyecto en cuanto a rendimiento, compatibilidad de personajes, calidad visual, plataforma objetivo y necesidades de características.

Nota sobre Compatibilidad de TTS

Si bien todos los modelos admiten varios métodos de entrada de audio, el modelo Realista regular tiene compatibilidad limitada con TTS local debido a conflictos del tiempo de ejecución ONNX. Sin embargo, el modelo Realista Habilitado para Estados de Ánimo es totalmente compatible con TTS local. Para la funcionalidad de texto a voz:

  • Modelo Estándar: Compatible con todas las opciones de TTS (local y externa)
  • Modelo Realista: Se recomiendan servicios de TTS externos (OpenAI, ElevenLabs)
  • Modelo Realista Habilitado para Estados de Ánimo: Compatible con todas las opciones de TTS (local y externa)

Cómo Funciona

El complemento procesa la entrada de audio de la siguiente manera:

  1. Los datos de audio se reciben en formato PCM de punto flotante con canales y frecuencia de muestreo especificados
  2. El complemento procesa el audio para generar datos de control facial o visemas dependiendo del modelo
  3. Para los modelos habilitados para estados de ánimo, se aplica contexto emocional a la animación facial
  4. Los datos de animación impulsan los movimientos faciales del personaje en tiempo real

Arquitectura de Rendimiento

Runtime MetaHuman Lip Sync utiliza inferencia solo en CPU para ofrecer resultados de sincronización labial consistentes y de baja latencia, adecuados para aplicaciones en tiempo real. Por defecto, el complemento realiza el procesamiento de sincronización labial cada 10 milisegundos (ajustable - consulta Configuración del Complemento para ver todos los ajustes disponibles, incluidos Tamaño del Fragmento de Procesamiento, recuento de hilos y otros parámetros de rendimiento).

Descripción General de la Arquitectura del Modelo

Los modelos de sincronización labial utilizan una red neuronal compacta basada en transformadores que procesa el audio mediante análisis de mel-espectrograma. Esta arquitectura ligera está diseñada específicamente para rendimiento en tiempo real con inferencia eficiente en CPU y una huella de memoria mínima.

¿Por Qué Inferencia en CPU?

Para operaciones de inferencia pequeñas y frecuentes, como la sincronización labial en tiempo real, el procesamiento en CPU ofrece mejores características de latencia que la GPU. Con un tamaño de lote de 1 e intervalos de inferencia de 10-100 ms, la sobrecarga de la GPU por transferencias PCIe y lanzamientos de kernel a menudo supera el tiempo real de cálculo. Además, en los motores de juego la GPU ya está saturada con renderizado, sombreadores y física, creando contención de recursos que introduce picos de latencia impredecibles.

Compatibilidad de Hardware

El complemento funciona de manera eficiente en la mayoría de las CPU de gama media y superior sin requerir hardware gráfico dedicado, proporcionando rendimiento en tiempo real en plataformas de escritorio, móviles y de realidad virtual. Para hardware más débil, puedes ajustar el Tipo de Modelo a Semi-Optimizado o Altamente Optimizado, o aumentar el Tamaño del Fragmento de Procesamiento para mantener el rendimiento en tiempo real con una capacidad de respuesta ligeramente reducida.

Inicio Rápido

Aquí tienes una configuración básica para habilitar la sincronización labial en tu personaje:

  1. Para personajes MetaHuman, sigue la Guía de Configuración
  2. Para personajes personalizados, sigue la Guía de Configuración de Personajes Personalizados
  3. Elige y configura tu modelo de sincronización labial preferido
  4. Configura el procesamiento de entrada de audio en tu Blueprint
  5. Conecta el nodo de sincronización labial apropiado en el Animation Blueprint
  6. ¡Reproduce audio y ve a tu personaje hablar con emoción!

Recursos Adicionales

📦 Descargas y Enlaces

🎥 Tutoriales en Video

Demostración Destacada:

Tutoriales del Modelo Realista (Alta Calidad):

Tutoriales del Modelo Estándar:

Configuración General:

💬 Soporte