Cómo usar el plugin con personajes personalizados

Esta guía te lleva a través del proceso de configurar Runtime MetaHuman Lip Sync para personajes que no son MetaHuman. Este proceso requiere familiaridad con conceptos de animación y rigging. Si necesitas ayuda implementando esto para tu personaje específico, puedes contactar para soporte profesional en [email protected].

Nota importante sobre modelos de Lip Sync

Compatibilidad con Personajes Personalizados

Los personajes personalizados solo son compatibles con el modelo Estándar (Más Rápido).

El modelo Realista (Mayor Calidad) está diseñado exclusivamente para personajes MetaHuman y no puede usarse con personajes personalizados. A lo largo de esta guía, debes seguir las instrucciones del modelo Estándar de la guía principal de configuración cuando se haga referencia.

Extensión del Plugin Requerida: Para usar el Modelo Estándar con personajes personalizados, debes instalar el plugin de extensión Standard Lip Sync como se describe en la sección de Prerrequisitos de la guía principal de configuración.

Esta extensión es requerida para todas las implementaciones de personajes personalizados descritas en esta guía.

Prerrequisitos

Antes de comenzar, asegúrate que tu personaje cumple con estos requisitos:

Tiene un esqueleto válido
Contiene morph targets (blend shapes) para expresiones faciales
Idealmente tiene 10+ morph targets definiendo visemas (más visemas = mejor calidad de lip sync)

El plugin requiere mapear los morph targets de tu personaje a los siguientes visemas estándar:

Sil -> Silence
PP -> Bilabial plosives (p, b, m)
FF -> Labiodental fricatives (f, v)
TH -> Dental fricatives (th)
DD -> Alveolar plosives (t, d)
KK -> Velar plosives (k, g)
CH -> Postalveolar affricates (ch, j)
SS -> Sibilants (s, z)
NN -> Nasal (n)
RR -> Approximant (r)
AA -> Open vowel (aa)
E -> Mid vowel (e)
IH -> Close front vowel (ih)
OH -> Close-mid back vowel (oh)
OU -> Close back vowel (ou)

Nota: Si tu personaje tiene un conjunto diferente de visemas (lo cual es probable), no necesitas coincidencias exactas para cada visema. A menudo son suficientes aproximaciones; por ejemplo, mapear el visema SH de tu personaje al visema CH del plugin funcionaría efectivamente ya que son sonidos postalveolares estrechamente relacionados.

Referencia de mapeo de visemas

Aquí están los mapeos entre sistemas comunes de visemas y los visemas requeridos por el plugin:

Apple ARKit
Sistemas Basados en FACS
Sistema Preston Blair
Sistema de Fonemas de 3ds Max
Personajes Personalizados (Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe)

ARKit proporciona un conjunto completo de blendshapes para animación facial, incluyendo varias formas de boca. Así es cómo mapearlos a los visemas de RuntimeMetaHumanLipSync:

Visema RuntimeMetaHumanLipSync	Equivalente ARKit	Notas
Sil	mouthClose	La posición neutral/reposo
PP	mouthPressLeft + mouthPressRight	Para sonidos bilabiales, usa ambos press shapes juntos
FF	lowerLipBiteLeft + lowerLipBiteRight (o mouthRollLower)	Labio inferior contacta dientes superiores, como en sonidos "f" y "v"
TH	tongueOut	ARKit tiene control directo de la lengua
DD	jawOpen (leve) + tongueUp (si tienes rig de lengua)	Lengua toca cresta alveolar; leve apertura de mandíbula
KK	mouthLeft o mouthRight (leve)	Tirón sutil de comisuras aproxima sonidos velares
CH	jawOpen (leve) + mouthFunnel (leve)	Combina para sonidos postalveolares
SS	mouthFrown	Usa un leve fruncido para sibilantes
NN	jawOpen (muy leve) + mouthClose	Boca casi cerrada con leve apertura de mandíbula
RR	mouthPucker (leve)	Redondeo sutil para sonidos de "r"
AA	jawOpen + mouthStretchLeft + mouthStretchRight (o jawOpen + mouthOpen)	Boca muy abierta para sonido "ah"
E	jawOpen (leve) + mouthSmile	Posición semi-abierta con leve sonrisa
IH	mouthSmile (leve)	Leve separación de labios
OH	mouthFunnel	Forma redondeada abierta
OU	mouthPucker	Labios fuertemente redondeados

FACS (Sistema de Codificación de Acción Facial) usa Unidades de Acción (AUs) para describir movimientos faciales. Muchos sistemas profesionales de animación usan enfoques basados en FACS:

Visema RuntimeMetaHumanLipSync	Unidades de Acción FACS	Notas
Sil	Neutral	Sin AUs activas
PP	AU23 + AU24	Presionador de labios + tensador de labios
FF	AU22 + AU28	Embudador de labios + succionador de labios
TH	AU25 (leve) + AU27	Labios separados + estiramiento de boca
DD	AU25 + AU16	Labios separados + depresor de labio inferior
KK	AU26 + AU14	Caída de mandíbula + formador de hoyuelos
CH	AU18 + AU25	Fruncidor de labios + labios separados
SS	AU20	Estirador de labios
NN	AU25 (muy leve)	Leve separación de labios
RR	AU18 (leve)	Leve fruncido de labios
AA	AU27 + AU26	Estiramiento de boca + caída de mandíbula
E	AU25 + AU12	Labios separados + tirador de comisuras
IH	AU12 + AU25 (leve)	Tirador de comisuras + leve labios separados
OH	AU27 (leve) + AU18	Leve estiramiento de boca + fruncido de labios
OU	AU18 + AU26 (leve)	Fruncido de labios + leve caída de mandíbula

El sistema Preston Blair es un estándar clásico de animación que utiliza nombres descriptivos para las formas de la boca:

RuntimeMetaHumanLipSync Viseme	Preston Blair	Notas
Sil	Rest	Posición neutral de boca cerrada
PP	MBP	La clásica forma de boca "MBP"
FF	FV	La posición "FV" con dientes en el labio inferior
TH	TH	Lengua tocando los dientes frontales
DD	D/T/N	Posición similar para estas consonantes
KK	CKG	Posición de consonante dura
CH	CH/J/SH	Leve fruncido para estos sonidos
SS	S/Z	Posición de dientes ligeramente abiertos
NN	N/NG/L	Similar a D/T pero con diferente posición de la lengua
RR	R	Labios redondeados para el sonido R
AA	AI	Boca muy abierta
E	EH	Boca medianamente abierta
IH	EE	Labios extendidos
OH	OH	Abertura media redondeada
OU	OO	Labios fuertemente redondeados

3ds Max utiliza un sistema basado en fonemas para su character studio:

RuntimeMetaHumanLipSync Viseme	Fonema 3ds Max	Notas
Sil	rest	Posición de boca por defecto
PP	p_b_m	Equivalente directo
FF	f_v	Equivalente directo
TH	th	Equivalente directo
DD	t_d	Equivalente directo
KK	k_g	Equivalente directo
CH	sh_zh_ch	Forma combinada
SS	s_z	Equivalente directo
NN	n_l	Combinado para estos sonidos
RR	r	Equivalente directo
AA	ah	Sonido de vocal abierta
E	eh	Vocal media
IH	ee	Vocal frontal cerrada
OH	oh	Vocal posterior redondeada
OU	oo	Vocal posterior cerrada

Creación de un Pose Asset personalizado

Sigue estos pasos para crear un pose asset personalizado para tu personaje que se utilizará con el nodo Blend Runtime MetaHuman Lip Sync:

1. Localiza el Skeletal Mesh de tu personaje

Encuentra el skeletal mesh que contiene los morph targets (blend shapes) que deseas usar para la animación de lip sync. Puede ser un mesh completo del cuerpo o solo de la cara, dependiendo del diseño de tu personaje.

2. Verifica los Morph Targets disponibles

Asegúrate de que tu skeletal mesh tenga los morph targets apropiados que puedan usarse como visemas para la animación de lip sync. La mayoría de los personajes con soporte para animación facial deberían tener algunos morph targets de fonemas/visemas.

Ejemplo de morph targets en un personaje

3. Crea una Animation de Pose de Referencia

Ve a Crear Asset -> Crear Animación -> Pose de Referencia
Ingresa un nombre descriptivo para la secuencia de animación y guárdala en una ubicación apropiada
La Secuencia de Animación creada se abrirá automáticamente, mostrando una animación vacía reproduciéndose en bucle

Creando un asset de pose de referencia Nombrando el asset de pose de referencia

Haz clic en el botón Pausa para detener la reproducción de la animación y facilitar la edición

Pausando la reproducción de animación

4. Editar la Secuencia de Animación

Haz clic en Editar en Sequencer -> Editar con FK Control Rig
En el diálogo Bake to Control Rig, haz clic en el botón Bake to Control Rig sin cambiar ninguna configuración

Editando con FK Control Rig Horneando a Control Rig

El editor cambiará a Modo Animación con la pestaña Sequencer abierta
Establece el Tiempo Final del Rango de Vista a 0016 (lo que automáticamente establecerá también Trabajar Rango Final a 0016)
Arrastra el borde derecho del control deslizante hasta el extremo derecho de la ventana del secuenciador

5. Preparar las curvas de animación

Regresa al recurso de Animation Sequence y localiza los morph targets en la lista Curves (si no son visibles, cierra y vuelve a abrir el recurso Animation Sequence)
Elimina cualquier morph target que no esté relacionado con visemas o movimientos de boca que quieras usar para el Lip Sync

6. Planifica tu mapeo de visemas

Crea un plan de mapeo para emparejar los visemas de tu personaje con el conjunto requerido por el plugin. Por ejemplo:

Sil -> Sil
PP -> FV
FF -> FV
TH -> TH
DD -> TD
KK -> KG
CH -> CH
SS -> SZ
NN -> NL
RR -> RR
AA -> AA
E -> E
IH -> IH
OH -> O
OU -> U

Ten en cuenta que es aceptable tener asignaciones repetidas cuando el conjunto de visemas de tu personaje no tiene coincidencias exactas para cada visema requerido.

7. Anima cada visema

Para cada visema, anima las curvas de morph target relevantes de 0.0 a 1.0
Comienza cada animación de visema en un fotograma diferente
Configura curvas adicionales según sea necesario (apertura de mandíbula/boca, posición de la lengua, etc.) para crear formas de visema de aspecto natural

8. Crear un Pose Asset

Ve a Create Asset -> Pose Asset -> Current Animation
Ingresa un nombre descriptivo para el Pose Asset y guárdalo en una ubicación adecuada
El Pose Asset creado se abrirá automáticamente, mostrando poses como Pose_0, Pose_1, etc., cada una correspondiente a un visema
Previsualiza los pesos de los visemas para asegurarte de que funcionen como se espera

Creando un pose asset Nombrando el pose asset Pose asset con visemas

9. Finalizar el Pose Asset

Renombra cada pose para que coincida con los nombres de los visemas de la sección Prerequisites
Elimina cualquier pose no utilizada

Configuración del manejo de audio y mezcla

Una vez que tu asset de pose esté listo, necesitas configurar los nodos de manejo de audio y mezcla:

Localiza o crea el Animation Blueprint de tu personaje
Configura el manejo de audio y mezcla siguiendo los mismos pasos documentados en la guía de configuración estándar del plugin
En el nodo Blend Runtime MetaHuman Lip Sync, selecciona tu Pose Asset personalizado en lugar del Pose Asset predeterminado de MetaHuman

Seleccionando el asset de pose personalizado

Combinación con animaciones corporales

Si deseas realizar lip sync junto con otras animaciones corporales:

Sigue los mismos pasos documentados en la guía estándar del plugin
Asegúrate de proporcionar los nombres correctos de los huesos del esqueleto del cuello de tu personaje en lugar de usar los nombres de huesos de MetaHuman

Resultados

Aquí hay ejemplos de personajes personalizados usando esta configuración:

Ejemplo 1: Lip sync con personaje personalizado

Ejemplo 2: Lip sync con sistema de visemas diferente

Ejemplo 3: Lip sync con sistema de visemas diferente

La calidad del lip sync depende en gran medida del personaje específico y de qué tan bien estén configurados sus visemas. Los ejemplos anteriores demuestran el plugin funcionando con diferentes tipos de personajes personalizados con sistemas de visemas distintos.

Nota importante sobre modelos de Lip Sync​

Prerrequisitos​

Referencia de mapeo de visemas​

Creación de un Pose Asset personalizado​

1. Localiza el Skeletal Mesh de tu personaje​

2. Verifica los Morph Targets disponibles​

3. Crea una Animation de Pose de Referencia​

4. Editar la Secuencia de Animación​

5. Preparar las curvas de animación​

6. Planifica tu mapeo de visemas​

7. Anima cada visema​

8. Crear un Pose Asset​

9. Finalizar el Pose Asset​

Configuración del manejo de audio y mezcla​

Combinación con animaciones corporales​

Resultados​