Configuração do Plugin
Configuração do Modelo
Configuração Padrão do Modelo
O nó Create Runtime Viseme Generator usa configurações padrão que funcionam bem para a maioria dos cenários. A configuração é tratada através das propriedades do nó de blend da Animation Blueprint.
Para opções de configuração da Animation Blueprint, consulte a seção Configuração de Sincronização Labial abaixo.
Configuração do Modelo Realista
O nó Create Realistic MetaHuman Lip Sync Generator aceita um parâmetro opcional Configuration que permite personalizar o comportamento do gerador:
Tipo de Modelo
A configuração Model Type determina qual versão do modelo realista usar:
| Tipo de Modelo | Desempenho | Qualidade Visual | Tratamento de Ruído | Casos de Uso Recomendados |
|---|---|---|---|---|
| Altamente Otimizado (Padrão) | Maior desempenho, menor uso de CPU | Boa qualidade | Pode mostrar movimentos notáveis da boca com ruído de fundo ou sons não vocais | Ambientes de áudio limpos, cenários críticos de desempenho |
| Semi-Otimizado | Bom desempenho, uso moderado de CPU | Alta qualidade | Melhor estabilidade com áudio ruidoso | Desempenho e qualidade balanceados, condições de áudio mistas |
| Original | Adequado para uso em tempo real em CPUs modernas | Maior qualidade | Mais estável com ruído de fundo e sons não vocais | Produções de alta qualidade, ambientes de áudio ruidosos, quando máxima precisão é necessária |
Configurações de Desempenho
Intra Op Threads: Controla o número de threads usadas para operações internas de processamento do modelo.
- 0 (Padrão/Automático): Usa detecção automática (tipicamente 1/4 dos núcleos de CPU disponíveis, máximo 4)
- 1-16: Especifica manualmente a contagem de threads. Valores mais altos podem melhorar o desempenho em sistemas multi-core, mas usam mais CPU
Inter Op Threads: Controla o número de threads usadas para execução paralela de diferentes operações do modelo.
- 0 (Padrão/Automático): Usa detecção automática (tipicamente 1/8 dos núcleos de CPU disponíveis, máximo 2)
- 1-8: Especifica manualmente a contagem de threads. Geralmente mantido baixo para processamento em tempo real
Tamanho do Chunk de Processamento
O Processing Chunk Size determina quantas amostras são processadas em cada etapa de inferência. O valor padrão é 160 amostras (10ms de áudio a 16kHz):
- Valores menores fornecem atualizações mais frequentes, mas aumentam o uso da CPU
- Valores maiores reduzem a carga da CPU, mas podem diminuir a responsividade da sincronização labial
- Recomenda-se usar múltiplos de 160 para um alinhamento ideal

Configuração do Modelo com Humor
O nó Create Realistic MetaHuman Lip Sync With Mood Generator fornece opções de configuração adicionais além do modelo realista básico:
Configuração Básica
Lookahead Ms: Tempo de antecipação em milissegundos para melhorar a precisão da sincronização labial.
- Padrão: 80ms
- Intervalo: 20ms a 200ms (deve ser divisível por 20)
- Valores mais altos fornecem melhor sincronização, mas aumentam a latência
Output Type: Controla quais controles faciais são gerados.
- Full Face: Todos os 81 controles faciais (sobrancelhas, olhos, nariz, boca, mandíbula, língua)
- Mouth Only: Apenas controles relacionados à boca, mandíbula e língua
Performance Settings: Usa as mesmas configurações Intra Op Threads e Inter Op Threads do modelo realista regular.
Configurações de Humor
Humores Disponíveis:
- Neutro, Feliz, Triste, Nojo, Raiva, Surpresa, Medo
- Confiante, Animado, Entediado, Brincalhão, Confuso
Intensidade do Humor: Controla o quão fortemente o humor afeta a animação (0.0 a 1.0)
Controle de Humor em Tempo de Execução
Você pode ajustar as configurações de humor durante a execução usando as seguintes funções:
- Set Mood: Altera o tipo de humor atual
- Set Mood Intensity: Ajusta o quão fortemente o humor afeta a animação (0.0 a 1.0)
- Set Lookahead Ms: Modifica o tempo de antecipação para sincronização
- Set Output Type: Alterna entre controles Full Face e Mouth Only

Guia de Seleção de Humor
Escolha humores apropriados com base no seu conteúdo:
| Humor | Melhor Para | Intervalo Típico de Intensidade |
|---|---|---|
| Neutro | Conversa geral, narração, estado padrão | 0.5 - 1.0 |
| Feliz | Conteúdo positivo, diálogo alegre, celebrações | 0.6 - 1.0 |
| Triste | Conteúdo melancólico, cenas emocionais, momentos sombrios | 0.5 - 0.9 |
| Nojo | Reações negativas, conteúdo desagradável, rejeição | 0.4 - 0.8 |
| Raiva | Diálogo agressivo, cenas de confronto, frustração | 0.6 - 1.0 |
| Surpresa | Eventos inesperados, revelações, reações de choque | 0.7 - 1.0 |
| Medo | Situações ameaçadoras, ansiedade, diálogo nervoso | 0.5 - 0.9 |
| Confiante | Apresentações profissionais, diálogo de liderança, fala assertiva | 0.7 - 1.0 |
| Animado | Conteúdo energético, anúncios, diálogo entusiasmado | 0.8 - 1.0 |
| Entediado | Conteúdo monótono, diálogo desinteressado, fala cansada | 0.3 - 0.7 |
| Brincalhão | Conversa casual, humor, interações descontraídas | 0.6 - 0.9 |
| Confuso | Diálogo com muitas perguntas, incerteza, perplexidade | 0.4 - 0.8 |
Configuração da Animation Blueprint
Configuração de Sincronização Labial
- Standard Model
- Realistic Models
O nó Blend Runtime MetaHuman Lip Sync tem opções de configuração em seu painel de propriedades:
| Propriedade | Padrão | Descrição |
|---|---|---|
| Interpolation Speed | 25 | Controla a rapidez com que os movimentos labiais transitam entre visemas. Valores mais altos resultam em transições mais rápidas e abruptas. |
| Reset Time | 0.2 | A duração em segundos após a qual a sincronização labial é redefinida. Isso é útil para evitar que a sincronização labial continue após o áudio ter parado. |
Animação de Riso
Você também pode adicionar animações de riso que responderão dinamicamente ao riso detectado no áudio:
- Adicione o nó
Blend Runtime MetaHuman Laughter - Conecte sua variável
RuntimeVisemeGeneratorao pinoViseme Generator - Se você já está usando sincronização labial:
- Conecte a saída do nó
Blend Runtime MetaHuman Lip SyncaoSource Posedo nóBlend Runtime MetaHuman Laughter - Conecte a saída do nó
Blend Runtime MetaHuman Laughterao pinoResultdoOutput Pose
- Conecte a saída do nó
- Se usar apenas riso sem sincronização labial:
- Conecte sua pose de origem diretamente ao
Source Posedo nóBlend Runtime MetaHuman Laughter - Conecte a saída ao pino
Result
- Conecte sua pose de origem diretamente ao

Quando o riso é detectado no áudio, seu personagem animará dinamicamente de acordo:

Configuração de Riso
O nó Blend Runtime MetaHuman Laughter tem suas próprias opções de configuração:
| Propriedade | Padrão | Descrição |
|---|---|---|
| Interpolation Speed | 25 | Controla a rapidez com que os movimentos labiais transitam entre animações de riso. Valores mais altos resultam em transições mais rápidas e abruptas. |
| Reset Time | 0.2 | A duração em segundos após a qual o riso é redefinido. Isso é útil para evitar que o riso continue após o áudio ter parado. |
| Max Laughter Weight | 0.7 | Escala a intensidade máxima da animação de riso (0.0 - 1.0). |
Nota: A detecção de riso está atualmente disponível apenas com o Modelo Padrão.
O nó Blend Realistic MetaHuman Lip Sync tem opções de configuração em seu painel de propriedades:
| Propriedade | Padrão | Descrição |
|---|---|---|
| Interpolation Speed | 30 | Controla a rapidez com que as expressões faciais transitam durante a fala ativa. Valores mais altos resultam em transições mais rápidas e abruptas. |
| Idle Interpolation Speed | 15 | Controla a rapidez com que as expressões faciais retornam ao estado de repouso/neutro. Valores mais baixos criam retornos mais suaves e graduais à pose de repouso. |
| Reset Time | 0.2 | Duração em segundos após a qual a sincronização labial é redefinida para o estado de repouso. Útil para evitar que as expressões continuem após o áudio parar. |
| Preserve Idle State | false | Quando habilitado, preserva o último estado emocional durante períodos de repouso em vez de redefinir para neutro. |
| Preserve Eye Expressions | true | Controla se os controles faciais relacionados aos olhos são preservados durante o estado de repouso. Só é efetivo quando Preserve Idle State está habilitado. |
| Preserve Brow Expressions | true | Controla se os controles faciais relacionados às sobrancelhas são preservados durante o estado de repouso. Só é efetivo quando Preserve Idle State está habilitado. |
| Preserve Mouth Shape | false | Controla se os controles de formato da boca (excluindo movimentos específicos de fala como língua e mandíbula) são preservados durante o estado de repouso. Só é efetivo quando Preserve Idle State está habilitado. |
Preservação do Estado de Repouso
O recurso Preserve Idle State aborda como o modelo Realista lida com períodos de silêncio. Ao contrário do modelo Padrão, que usa visemas discretos e consistentemente retorna a valores zero durante o silêncio, a rede neural do modelo Realista pode manter um posicionamento facial sutil que difere da pose de repouso padrão do MetaHuman.
Quando Habilitar:
- Manter expressões emocionais entre segmentos de fala
- Preservar traços de personalidade do personagem
- Garantir continuidade visual em sequências cinematográficas
Opções de Controle Regional:
- Eye Expressions: Preserva apertar de olhos, alargamento e posicionamento das pálpebras
- Brow Expressions: Mantém posicionamento das sobrancelhas e testa
- Mouth Shape: Mantém curvatura geral da boca enquanto permite que movimentos de fala (língua, mandíbula) sejam redefinidos
Combinando com Animações Existentes
Para aplicar sincronização labial e riso juntamente com animações corporais existentes e animações faciais personalizadas sem substituí-las:
- Adicione um nó
Layered blend per boneentre suas animações corporais e a saída final. Certifique-se de queUse Attached Parentseja verdadeiro. - Configure a configuração de camadas:
- Adicione 1 item ao array
Layer Setup - Adicione 3 itens aos
Branch Filterspara a camada, com os seguintesBone Names:FACIAL_C_FacialRootFACIAL_C_Neck2RootFACIAL_C_Neck1Root
- Adicione 1 item ao array
- Importante para animações faciais personalizadas: Em
Curve Blend Option, selecione "Use Max Value". Isso permite que animações faciais personalizadas (expressões, emoções, etc.) sejam corretamente sobrepostas à sincronização labial. - Faça as conexões:
- Animações existentes (como
BodyPose) → entradaBase Pose - Saída de animação facial (dos nós de sincronização labial e/ou riso) → entrada
Blend Poses 0 - Nó de blend em camadas → pose
Resultfinal
- Animações existentes (como

Seleção do Conjunto de Morph Targets
- Standard Model
- Realistic Models
O Modelo Padrão usa assets de pose que inerentemente suportam qualquer convenção de nomenclatura de morph targets através da configuração de asset de pose personalizada. Nenhuma configuração adicional é necessária.
O nó Blend Realistic MetaHuman Lip Sync inclui uma propriedade Morph Target Set que determina qual convenção de nomenclatura de morph target usar para animação facial:
| Conjunto de Morph Targets | Descrição | Casos de Uso |
|---|---|---|
| MetaHuman (Padrão) | Nomes padrão de morph targets do MetaHuman (ex: CTRL_expressions_jawOpen) | Personagens MetaHuman |
| ARKit | Nomes compatíveis com Apple ARKit (ex: JawOpen, MouthSmileLeft) | Personagens baseados em ARKit |
Ajuste Fino do Comportamento da Sincronização Labial
Controle de Protrusão da Língua
No modelo padrão de sincronização labial, você pode notar movimento excessivo da língua para frente durante certos fonemas. Para controlar a protrusão da língua:
- Após seu nó de blend de sincronização labial, adicione um nó
Modify Curve - Clique com o botão direito no nó
Modify Curvee selecione Add Curve Pin - Adicione um pino de curva com o nome
CTRL_expressions_tongueOut - Defina a propriedade Apply Mode do nó como Scale
- Ajuste o parâmetro Value para controlar a extensão da língua (ex: 0.8 para reduzir a protrusão em 20%)
Controle de Abertura da Mandíbula
A sincronização labial realista pode produzir movimentos de mandíbula excessivamente responsivos dependendo do seu conteúdo de áudio e requisitos visuais. Para ajustar a intensidade da abertura da mandíbula:
- Após seu nó de blend de sincronização labial, adicione um nó
Modify Curve - Clique com o botão direito no nó
Modify Curvee selecione Add Curve Pin - Adicione um pino de curva com o nome
CTRL_expressions_jawOpen - Defina a propriedade Apply Mode do nó como Scale
- Ajuste o parâmetro Value para controlar a amplitude de abertura da mandíbula (ex: 0.9 para reduzir o movimento da mandíbula em 10%)
Ajuste Fino Específico por Humor
Para modelos com humor, você pode ajustar finamente expressões emocionais específicas:
Controle de Sobrancelhas:
CTRL_expressions_browRaiseInL/CTRL_expressions_browRaiseInR- Elevação da sobrancelha internaCTRL_expressions_browRaiseOuterL/CTRL_expressions_browRaiseOuterR- Elevação da sobrancelha externaCTRL_expressions_browDownL/CTRL_expressions_browDownR- Abaixamento da sobrancelha
Controle de Expressão dos Olhos:
CTRL_expressions_eyeSquintInnerL/CTRL_expressions_eyeSquintInnerR- Apertar dos olhosCTRL_expressions_eyeCheekRaiseL/CTRL_expressions_eyeCheekRaiseR- Elevação da bochecha
Comparação e Seleção de Modelos
Escolhendo Entre Modelos
Ao decidir qual modelo de sincronização labial usar para seu projeto, considere estes fatores:
| Consideração | Modelo Padrão | Modelo Realista | Modelo Realista com Humor |
|---|---|---|---|
| Compatibilidade de Personagens | MetaHumans e todos os tipos de personagens personalizados | Apenas MetaHumans | Apenas MetaHumans |
| Qualidade Visual | Boa sincronização labial com desempenho eficiente | Realismo aprimorado com movimentos de boca mais naturais | Realismo aprimorado com expressões emocionais |
| Desempenho | Otimizado para todas as plataformas incluindo mobile/VR | Requisitos de recursos mais altos | Requisitos de recursos mais altos |
| Recursos | 14 visemas, detecção de riso | 81 controles faciais, 3 níveis de otimização | 81 controles faciais, 12 humores, saída configurável |
| Suporte a Plataformas | Windows, Android, Quest | Windows, Mac, iOS, Linux, Android, Quest | Windows, Mac, iOS, Linux, Android, Quest |
| Casos de Uso | Aplicações gerais, jogos, VR/AR, mobile | Experiências cinematográficas, interações em close-up | Narrativa emocional, interação avançada de personagens |
Compatibilidade de Versão do Engine
Se você está usando Unreal Engine 5.2, os Modelos Realistas podem não funcionar corretamente devido a um bug na biblioteca de resampling da UE. Para usuários da UE 5.2 que precisam de funcionalidade de sincronização labial confiável, por favor use o Modelo Padrão em vez disso.
Este problema é específico da UE 5.2 e não afeta outras versões do engine.
Recomendações de Desempenho
- Para a maioria dos projetos, o Modelo Padrão fornece um excelente equilíbrio entre qualidade e desempenho
- Use o Modelo Realista quando precisar da maior fidelidade visual para personagens MetaHuman
- Use o Modelo Realista com Humor quando o controle de expressão emocional for importante para sua aplicação
- Considere as capacidades de desempenho da sua plataforma alvo ao escolher entre modelos
- Teste diferentes níveis de otimização para encontrar o melhor equilíbrio para seu caso de uso específico
Compatibilidade com TTS
| Tipo de Modelo | Suporte a TTS Local (via Runtime Text To Speech) | Suporte a TTS Externo | Notas |
|---|---|---|---|
| Modelo Padrão | ✅ Suporte total | ✅ Suporte total | Compatível com todas as opções de TTS |
| Modelo Realista | ❌ Suporte limitado | ✅ Suporte total | Conflitos de runtime ONNX com TTS local |
| Modelo Realista com Humor | ✅ Suporte total | ✅ Suporte total | Compatível com todas as opções de TTS |
Solução de Problemas
Problemas Comuns
Recriação do Gerador para Modelos Realistas: Para operação confiável e consistente com os Modelos Realistas, é recomendado recriar o gerador cada vez que você quiser alimentar novos dados de áudio após um período de inatividade. Isso se deve ao comportamento do runtime ONNX que pode fazer a sincronização labial parar de funcionar ao reutilizar geradores após períodos de silêncio.
Compatibilidade com TTS Local: O TTS local fornecido pelo plugin Runtime Text To Speech não é atualmente suportado com o modelo Realista regular devido a conflitos de runtime ONNX. No entanto, é totalmente compatível com o Modelo Padrão e o Modelo Realista com Humor. Use serviços de TTS externos se você especificamente precisar do modelo Realista regular com funcionalidade TTS.
Responsividade Degradada da Sincronização Labial: Se você perceber que a sincronização labial se torna menos responsiva ao longo do tempo ao usar Streaming Sound Wave ou Capturable Sound Wave, isso pode ser causado por acúmulo de memória. Por padrão, a memória é realocada cada vez que novo áudio é anexado. Para evitar esse problema, chame a função ReleaseMemory periodicamente para liberar memória acumulada, como a cada 30 segundos mais ou menos.
Otimização de Desempenho:
- Ajuste o Processing Chunk Size para modelos Realistas com base em seus requisitos de desempenho
- Use contagens de threads apropriadas para seu hardware alvo
- Considere usar o tipo de saída Mouth Only para modelos com humor quando a animação facial completa não for necessária