Visão Geral

Runtime MetaHuman Lip Sync é um plugin que habilita sincronização labial em tempo real, offline e multiplataforma tanto para personagens MetaHuman quanto para personagens personalizados. Ele permite que você anime os lábios de um personagem em resposta a uma entrada de áudio de várias fontes, incluindo:
- Entrada de microfone via capturable sound wave do Runtime Audio Importer
- Fala sintetizada do Runtime Text To Speech ou do Runtime AI Chatbot Integrator
- Dados de áudio transmitidos ou importados em múltiplos formatos via Runtime Audio Importer
- Qualquer dado de áudio no formato PCM float (um array de amostras de ponto flutuante)
O plugin gera internamente visemas (representações visuais de fonemas) com base na entrada de áudio. Como ele trabalha diretamente com dados de áudio em vez de texto, o plugin suporta entrada multilíngue, incluindo, mas não se limitando a, inglês, espanhol, francês, alemão, japonês, chinês, coreano, russo, italiano, português, árabe e hindi. Literalmente qualquer idioma é suportado, pois a sincronização labial é gerada a partir de fonemas de áudio, e não de processamento de texto específico de idioma.
O Modelo Padrão produz 14 visemas e executa a animação de sincronização labial usando um ativo de pose predefinido. Em contraste, os Modelos Realistas (exclusivos para personagens MetaHuman) geram 81 alterações de controle facial sem depender de um ativo de pose predefinido, resultando em animações faciais significativamente mais realistas.
Compatibilidade de Personagens
Apesar do nome, o Runtime MetaHuman Lip Sync funciona com uma ampla gama de personagens além dos MetaHumans:
Sistemas de Personagens Comerciais Populares
- Personagens Daz Genesis 8/9
- Personagens Reallusion Character Creator 3/4 (CC3/CC4)
- Personagens Mixamo
- Avatares ReadyPlayerMe
Suporte a Padrões de Animação
- Sistemas de blendshape baseados em FACS
- Padrão de blendshape Apple ARKit
- Conjuntos de fonemas Preston Blair
- Sistemas de fonemas 3ds Max
- Qualquer personagem com morph targets personalizados para expressões faciais
Para instruções detalhadas sobre como usar o plugin com personagens que não são MetaHuman, consulte o Guia de Configuração de Personagens Personalizados.
Prévia da Animação
Confira estas animações curtas para ver a qualidade da animação de sincronização labial produzida pelo plugin em diferentes tipos de personagens e modelos:




Principais Recursos
- Sincronização labial em tempo real a partir de entrada de microfone
- Suporte a processamento de áudio offline
- Compatibilidade multiplataforma com suporte específico por plataforma para modelos
- Suporte para múltiplos sistemas de personagens e padrões de animação
- Mapeamento flexível de visemas para personagens personalizados
- Suporte universal a idiomas - funciona com qualquer idioma falado através de análise de áudio
- Animação facial consciente do humor para maior expressividade
- Tipos de saída configuráveis (controles de rosto completo ou apenas boca)
Modelos de Sincronização Labial
O plugin oferece múltiplos modelos de sincronização labial para atender diferentes necessidades do projeto:
- Modelo Padrão
- Modelo Realista
- Modelo Realista com Humor
O modelo padrão de sincronização labial oferece desempenho eficiente e multiplataforma com ampla compatibilidade de personagens:
- Funciona com MetaHumans e todos os tipos de personagens personalizados
- Otimizado para desempenho em tempo real
- Requisitos de recursos mais baixos
- Compatibilidade total com TTS local (plugin Runtime Text To Speech)
- Suporte de Plataforma: Windows, Android, plataformas baseadas em Android (incluindo Meta Quest)
Para usar o Modelo Padrão, você precisa instalar um plugin de extensão adicional. Consulte a seção Pré-requisitos para instruções de instalação.
O modelo realista de sincronização labial oferece fidelidade visual aprimorada especificamente para personagens MetaHuman:
- Compatível com personagens MetaHuman e baseados em ARKit com animação facial avançada (81 controles faciais)
- Qualidade visual superior com movimentos de boca mais naturais
- Requisitos de desempenho ligeiramente mais altos
- Suporte limitado a TTS local (serviços de TTS externos recomendados)
- Ideal para experiências cinematográficas e interações de personagem em close-up
- Suporte de Plataforma: Windows, Mac, iOS, Linux, Android, plataformas baseadas em Android (incluindo Meta Quest)
- Três níveis de otimização: Original, Semi-Otimizado e Altamente Otimizado
- Conjuntos de morph targets configuráveis (veja Seleção de Conjunto de Morph Targets)
O Modelo Realista está incluído no plugin principal e não requer extensões adicionais para uso.
O modelo realista com humor fornece animação facial consciente de emoções para personagens MetaHuman:
- Compatível com personagens MetaHuman e baseados em ARKit com animação facial responsiva ao humor
- 12 tipos diferentes de humor (Neutro, Feliz, Triste, Confiante, etc.)
- Intensidade de humor configurável (0.0 a 1.0)
- Temporização de antecipação ajustável para melhor sincronização (20ms a 200ms)
- Tipos de saída selecionáveis: Controles de Rosto Completo ou Apenas Boca
- Processamento de áudio em streaming para aplicações em tempo real
- Conjuntos de morph targets configuráveis (veja Seleção de Conjunto de Morph Targets)
- Suporte de Plataforma: Windows, Mac, iOS, Linux, Android, plataformas baseadas em Android (incluindo Meta Quest)
O Modelo com Humor inclui recursos avançados como temporização de antecipação configurável e controle seletivo de saída, tornando-o ideal para aplicações que requerem controle de expressão emocional.
Você pode escolher o modelo apropriado com base nos requisitos do seu projeto para desempenho, compatibilidade de personagens, qualidade visual, plataforma de destino e necessidades de recursos.
Embora todos os modelos suportem vários métodos de entrada de áudio, o modelo Realista regular tem compatibilidade limitada com TTS local devido a conflitos de runtime ONNX. O modelo Realista com Humor, no entanto, é totalmente compatível com TTS local. Para funcionalidade de texto-para-voz:
- Modelo Padrão: Compatível com todas as opções de TTS (local e externa)
- Modelo Realista: Serviços de TTS externos recomendados (OpenAI, ElevenLabs)
- Modelo Realista com Humor: Compatível com todas as opções de TTS (local e externa)
Como Funciona
O plugin processa a entrada de áudio da seguinte maneira:
- Os dados de áudio são recebidos no formato PCM float com canais e taxa de amostragem especificados
- O plugin processa o áudio para gerar dados de controle facial ou visemas dependendo do modelo
- Para modelos com humor, o contexto emocional é aplicado à animação facial
- Os dados de animação acionam os movimentos faciais do personagem em tempo real
Arquitetura de Desempenho
O Runtime MetaHuman Lip Sync usa inferência APENAS na CPU para fornecer resultados de sincronização labial consistentes e de baixa latência, adequados para aplicações em tempo real. Por padrão, o plugin executa o processamento de sincronização labial a cada 10 milissegundos (ajustável - veja Configuração do Plugin para todas as configurações disponíveis, incluindo Tamanho do Bloco de Processamento, contagem de threads e outros parâmetros de desempenho).
Visão Geral da Arquitetura do Modelo
Os modelos de sincronização labial usam uma rede neural compacta baseada em transformador que processa o áudio através de análise de mel-espectrograma. Esta arquitetura leve é projetada especificamente para desempenho em tempo real com inferência eficiente na CPU e pegada de memória mínima.
Por que Inferência na CPU?
Para operações de inferência pequenas e frequentes, como sincronização labial em tempo real, o processamento na CPU oferece melhores características de latência do que a GPU. Com tamanho de lote 1 e intervalos de inferência de 10-100ms, a sobrecarga da GPU com transferências PCIe e lançamentos de kernel geralmente excede o tempo real de computação. Além disso, em motores de jogo a GPU já está saturada com renderização, shaders e física, criando contenção de recursos que introduz picos de latência imprevisíveis.
Compatibilidade de Hardware
O plugin funciona eficientemente na maioria das CPUs de nível médio ou superior sem exigir hardware gráfico dedicado, fornecendo desempenho em tempo real em plataformas desktop, móveis e de RV. Para hardware mais fraco, você pode ajustar o Tipo de Modelo para Semi-Otimizado ou Altamente Otimizado, ou aumentar o Tamanho do Bloco de Processamento para manter o desempenho em tempo real com responsividade ligeiramente reduzida.
Início Rápido
Aqui está uma configuração básica para habilitar a sincronização labial no seu personagem:
- Para personagens MetaHuman, siga o Guia de Configuração
- Para personagens personalizados, siga o Guia de Configuração de Personagem Personalizado
- Escolha e configure seu modelo de sincronização labial preferido
- Configure o processamento de entrada de áudio no seu Blueprint
- Conecte o nó de sincronização labial apropriado no Animation Blueprint
- Reproduza áudio e veja seu personagem falar com emoção!
Recursos Adicionais
📦 Downloads & Links
Projetos de Demonstração:
- Demonstração Fala-para-Fala (Fluxo de Trabalho de IA Completo):
- Baixar demonstração empacotada (Windows) ⭐ NOVO
- Baixar arquivos fonte (UE 5.6) ⭐ NOVO
- Fluxo de trabalho completo de reconhecimento de fala + chatbot de IA + TTS + sincronização labial
- Requer: Este plugin + Runtime Audio Importer + Runtime Speech Recognizer + Runtime AI Chatbot Integrator, opcional: Runtime Text To Speech
- Demonstração Básica de Sincronização Labial:
- Baixar demonstração empacotada (Windows)
- Baixar arquivos fonte (UE 5.6)
- Fluxos de trabalho básicos: entrada de microfone, arquivos de áudio, TTS
- Requer: Este plugin + Runtime Audio Importer, opcional: Text To Speech / AI Chatbot
- O modelo padrão requer um pequeno plugin de extensão (veja aqui)
🎥 Tutoriais em Vídeo
Demonstrações em Destaque:
- Demonstração de Assistente de IA Fala-para-Fala ⭐ NOVO
- Demonstração do Modelo Realista – Precisão Aprimorada
Tutoriais do Modelo Realista (Alta Qualidade):
- Sincronização Labial de Alta Qualidade com Controle de Humor & TTS Local
- Sincronização Labial de Alta Qualidade com ElevenLabs & OpenAI TTS
- Sincronização Labial em Tempo Real com Microfone de Alta Qualidade
Tutoriais do Modelo Padrão:
- Sincronização Labial em Tempo Real com Microfone Padrão
- Sincronização Labial Padrão com Texto-para-Voz Local
- Sincronização Labial Padrão com ElevenLabs & OpenAI TTS
Configuração Geral:
💬 Suporte
- Servidor de suporte no Discord
- Desenvolvimento Personalizado: [email protected] (soluções sob medida para equipes e organizações)