Visão Geral

Runtime MetaHuman Lip Sync é um plugin que habilita sincronização labial em tempo real, offline e multiplataforma para personagens MetaHuman e personalizados. Ele permite animar os lábios de um personagem em resposta a uma entrada de áudio de várias fontes, incluindo:
- Entrada de microfone via capturable sound wave do Runtime Audio Importer
- Fala sintetizada do Runtime Text To Speech ou do Runtime AI Chatbot Integrator
- Dados de áudio transmitidos ou importados em múltiplos formatos via Runtime Audio Importer
- Qualquer dado de áudio em formato PCM float (um array de amostras de ponto flutuante)
O plugin gera internamente visemas (representações visuais de fonemas) com base na entrada de áudio. Como ele trabalha diretamente com dados de áudio em vez de texto, o plugin suporta entrada multilíngue, incluindo, mas não se limitando a, inglês, espanhol, francês, alemão, japonês, chinês, coreano, russo, italiano, português, árabe e hindi. Literalmente qualquer idioma é suportado, pois a sincronização labial é gerada a partir de fonemas de áudio, e não de processamento de texto específico de idioma.
O Modelo Padrão produz 14 visemas e executa a animação de sincronização labial usando um ativo de pose predefinido. Em contraste, os Modelos Realistas (exclusivos para personagens MetaHuman e baseados em ARKit) geram 81 alterações de controle facial sem depender de um ativo de pose predefinido, resultando em animações faciais significativamente mais realistas.
Compatibilidade de Personagens
Apesar do nome, o Runtime MetaHuman Lip Sync funciona com uma ampla gama de personagens além dos MetaHumans:
Sistemas de Personagens Comerciais Populares
- Personagens Daz Genesis 8/9
- Personagens Reallusion Character Creator 3/4 (CC3/CC4)
- Personagens Mixamo
- Avatares ReadyPlayerMe
Suporte a Padrões de Animação
- Sistemas de blendshape baseados em FACS
- Padrão de blendshape Apple ARKit
- Conjuntos de fonemas Preston Blair
- Sistemas de fonemas 3ds Max
- Qualquer personagem com morph targets personalizados para expressões faciais
Para instruções detalhadas sobre como usar o plugin com personagens não-MetaHuman, consulte o Guia de Configuração de Personagens Personalizados.
Prévia da Animação
Confira estas animações curtas para ver a qualidade da animação de sincronização labial produzida pelo plugin em diferentes tipos de personagens e modelos:
Principais Recursos
- Sincronização labial em tempo real a partir de entrada de microfone
- Suporte a processamento de áudio offline
- Compatibilidade multiplataforma com suporte específico por plataforma para modelos
- Suporte para múltiplos sistemas de personagens e padrões de animação
- Mapeamento flexível de visemas para personagens personalizados
- Suporte universal de idiomas - funciona com qualquer idioma falado através de análise de áudio
- Animação facial consciente do humor para maior expressividade
- Tipos de saída configuráveis (controles de rosto completo ou apenas boca)
Modelos de Sincronização Labial
O plugin oferece múltiplos modelos de sincronização labial para atender às diferentes necessidades do projeto:
- Standard Model
- Realistic Model
- Mood-Enabled Realistic Model
O modelo de sincronização labial padrão oferece desempenho eficiente e multiplataforma com ampla compatibilidade de personagens:
- Funciona com MetaHumans e todos os tipos de personagens personalizados
- Otimizado para desempenho em tempo real
- Requisitos de recursos mais baixos
- Suporte de Plataforma: Windows, Android, plataformas baseadas em Android (incluindo Meta Quest)
Para usar o Standard Model, você precisa instalar um plugin de extensão adicional. Consulte a seção Pré-requisitos para instruções de instalação.
O modelo de sincronização labial realista oferece fidelidade visual aprimorada especificamente para personagens MetaHuman:
- Compatível com personagens MetaHuman e baseados em ARKit com animação facial avançada (81 controles faciais)
- Qualidade visual superior com movimentos de boca mais naturais
- Requisitos de desempenho ligeiramente mais altos
- Processamento de áudio em streaming para aplicações em tempo real
- Ideal para experiências cinematográficas e interações de personagens em close-up
- Três níveis de otimização: Original, Semi-Otimizado e Altamente Otimizado
- Conjuntos de morph targets configuráveis (veja Seleção de Conjunto de Morph Targets)
- Suporte de Plataforma: Windows, Mac, iOS, Linux, Android, plataformas baseadas em Android (incluindo Meta Quest)
O Realistic Model está incluído no plugin principal e não requer extensões adicionais para uso.
O modelo realista com ativação de humor fornece animação facial consciente de emoções para personagens MetaHuman:
- Compatível com personagens MetaHuman e baseados em ARKit com animação facial responsiva ao humor (81 controles faciais)
- 12 tipos diferentes de humor (Neutro, Feliz, Triste, Confiante, etc.)
- Intensidade de humor configurável (0.0 a 1.0)
- Temporização de antecipação ajustável para melhor sincronização (20ms a 200ms)
- Tipos de saída selecionáveis: Controles de Rosto Completo ou Apenas Boca
- Processamento de áudio em streaming para aplicações em tempo real
- Conjuntos de morph targets configuráveis (veja Seleção de Conjunto de Morph Targets)
- Suporte de Plataforma: Windows, Mac, iOS, Linux, Android, plataformas baseadas em Android (incluindo Meta Quest)
O Mood-Enabled Realistic Model está incluído no plugin principal e não requer extensões adicionais para uso.
Você pode escolher o modelo apropriado com base nos requisitos do seu projeto para desempenho, compatibilidade de personagens, qualidade visual, plataforma de destino e necessidades de recursos.
Como Funciona
O plugin processa a entrada de áudio da seguinte maneira:
- Os dados de áudio são recebidos no formato PCM de ponto flutuante com canais e taxa de amostragem especificados
- O plugin processa o áudio para gerar dados de controle facial ou visemas dependendo do modelo
- Para modelos com ativação de humor, o contexto emocional é aplicado à animação facial
- Os dados de animação controlam os movimentos faciais do personagem em tempo real
Arquitetura de Desempenho
O Runtime MetaHuman Lip Sync usa inferência apenas na CPU para fornecer resultados de sincronização labial consistentes e de baixa latência, adequados para aplicações em tempo real. Por padrão, o plugin executa o processamento de sincronização labial a cada 10 milissegundos (ajustável - veja Configuração do Plugin para todas as configurações disponíveis, incluindo Tamanho do Bloco de Processamento, contagem de threads e outros parâmetros de desempenho).
Visão Geral da Arquitetura do Modelo
Os modelos de sincronização labial usam uma rede neural compacta baseada em transformadores que processa o áudio através de análise de mel-espectrograma. Esta arquitetura leve é projetada especificamente para desempenho em tempo real com inferência eficiente na CPU e pegada de memória mínima.
Por que Inferência na CPU?
Para operações de inferência pequenas e frequentes, como sincronização labial em tempo real, o processamento na CPU oferece melhores características de latência do que a GPU. Com tamanho de lote 1 e intervalos de inferência de 10-100ms, a sobrecarga da GPU com transferências PCIe e lançamentos de kernel geralmente excede o tempo real de computação. Além disso, em motores de jogo, a GPU já está saturada com renderização, shaders e física, criando contenção de recursos que introduz picos de latência imprevisíveis.
Compatibilidade de Hardware
O plugin funciona eficientemente na maioria das CPUs de nível médio ou superior sem exigir hardware gráfico dedicado, fornecendo desempenho em tempo real em plataformas desktop, móveis e de RV. Para hardware mais fraco, você pode ajustar o Tipo de Modelo para Semi-Otimizado ou Altamente Otimizado, ou aumentar o Tamanho do Bloco de Processamento para manter o desempenho em tempo real com responsividade ligeiramente reduzida.
Início Rápido
Aqui está uma configuração básica para ativar a sincronização labial no seu personagem:
- Para personagens MetaHuman, siga o Guia de Configuração
- Para personagens personalizados, siga o Guia de Configuração de Personagem Personalizado
- Escolha e configure seu modelo de sincronização labial preferido
- Configure o processamento de entrada de áudio no seu Blueprint
- Conecte o nó de sincronização labial apropriado no Animation Blueprint
- Reproduza áudio e veja seu personagem falar com emoção!
Recursos Adicionais
📦 Downloads & Links
Projetos de Demonstração:
- Demonstração de Fala-para-Fala (Fluxo de Trabalho Completo de IA):
- Baixar demonstração empacotada (Windows) ⭐ NOVO
- Baixar arquivos fonte (UE 5.6+) ⭐ NOVO
- Fluxo de trabalho completo de reconhecimento de fala + chatbot de IA + TTS + sincronização labial
- Requer: Este plugin + Runtime Audio Importer + Runtime Speech Recognizer + Runtime AI Chatbot Integrator, opcional: Runtime Text To Speech
- Demonstração Básica de Sincronização Labial:
- Baixar demonstração empacotada (Windows)
- Baixar arquivos fonte (UE 5.6+)
- Fluxos de trabalho básicos: entrada de microfone, arquivos de áudio, TTS
- Requer: Este plugin + Runtime Audio Importer, opcional: Text To Speech / AI Chatbot
- O modelo padrão requer um pequeno plugin de extensão (veja aqui)
🎥 Tutoriais em Vídeo
Demonstrações em Destaque:
- Demonstração de Assistente de IA de Fala-para-Fala
- Demonstração do Realistic Model – Precisão Aprimorada
Tutoriais do Realistic Model (Alta Qualidade):
- Sincronização Labial de Alta Qualidade a partir de Arquivo/Buffer de Áudio
- Sincronização Labial de Alta Qualidade com Controle de Humor e TTS Local
- Sincronização Labial de Alta Qualidade com ElevenLabs e OpenAI TTS
- Sincronização Labial ao Vivo de Alta Qualidade com Microfone
Tutoriais do Standard Model:
- Sincronização Labial ao Vivo Padrão com Microfone
- Sincronização Labial Padrão com Text-to-Speech Local
- Sincronização Labial Padrão com ElevenLabs e OpenAI TTS
Configuração Geral:
- Adicionando um Personagem MetaHuman Personalizado ao Projeto de Demonstração
- Vídeo tutorial de configuração
- Passo a passo do projeto de demonstração (mais antigo)
💬 Suporte
- Desenvolvimento Personalizado: [email protected] (soluções sob medida para equipes e organizações)