Pular para o conteúdo principal

Visão Geral

Runtime MetaHuman Lip Sync Documentation

Runtime MetaHuman Lip Sync é um plugin que habilita sincronização labial em tempo real, offline e multiplataforma para personagens MetaHuman e personalizados. Ele permite animar os lábios de um personagem em resposta a uma entrada de áudio de várias fontes, incluindo:

O plugin gera internamente visemas (representações visuais de fonemas) com base na entrada de áudio. Como ele trabalha diretamente com dados de áudio em vez de texto, o plugin suporta entrada multilíngue, incluindo, mas não se limitando a, inglês, espanhol, francês, alemão, japonês, chinês, coreano, russo, italiano, português, árabe e hindi. Literalmente qualquer idioma é suportado, pois a sincronização labial é gerada a partir de fonemas de áudio, e não de processamento de texto específico de idioma.

O Modelo Padrão produz 14 visemas e executa a animação de sincronização labial usando um ativo de pose predefinido. Em contraste, os Modelos Realistas (exclusivos para personagens MetaHuman e baseados em ARKit) geram 81 alterações de controle facial sem depender de um ativo de pose predefinido, resultando em animações faciais significativamente mais realistas.

Compatibilidade de Personagens

Apesar do nome, o Runtime MetaHuman Lip Sync funciona com uma ampla gama de personagens além dos MetaHumans:

Sistemas de Personagens Comerciais Populares

  • Personagens Daz Genesis 8/9
  • Personagens Reallusion Character Creator 3/4 (CC3/CC4)
  • Personagens Mixamo
  • Avatares ReadyPlayerMe

Suporte a Padrões de Animação

  • Sistemas de blendshape baseados em FACS
  • Padrão de blendshape Apple ARKit
  • Conjuntos de fonemas Preston Blair
  • Sistemas de fonemas 3ds Max
  • Qualquer personagem com morph targets personalizados para expressões faciais

Para instruções detalhadas sobre como usar o plugin com personagens não-MetaHuman, consulte o Guia de Configuração de Personagens Personalizados.

Prévia da Animação

Confira estas animações curtas para ver a qualidade da animação de sincronização labial produzida pelo plugin em diferentes tipos de personagens e modelos:

Modelo realista com personagem MetaHuman
Modelo padrão com personagem MetaHuman
Modelo padrão com personagem personalizado
Modelo padrão com personagem personalizado

Principais Recursos

  • Sincronização labial em tempo real a partir de entrada de microfone
  • Suporte a processamento de áudio offline
  • Compatibilidade multiplataforma com suporte específico por plataforma para modelos
  • Suporte para múltiplos sistemas de personagens e padrões de animação
  • Mapeamento flexível de visemas para personagens personalizados
  • Suporte universal de idiomas - funciona com qualquer idioma falado através de análise de áudio
  • Animação facial consciente do humor para maior expressividade
  • Tipos de saída configuráveis (controles de rosto completo ou apenas boca)

Modelos de Sincronização Labial

O plugin oferece múltiplos modelos de sincronização labial para atender às diferentes necessidades do projeto:

O modelo de sincronização labial padrão oferece desempenho eficiente e multiplataforma com ampla compatibilidade de personagens:

  • Funciona com MetaHumans e todos os tipos de personagens personalizados
  • Otimizado para desempenho em tempo real
  • Requisitos de recursos mais baixos
  • Suporte de Plataforma: Windows, Android, plataformas baseadas em Android (incluindo Meta Quest)
Extensão de Plugin Obrigatória

Para usar o Standard Model, você precisa instalar um plugin de extensão adicional. Consulte a seção Pré-requisitos para instruções de instalação.

Você pode escolher o modelo apropriado com base nos requisitos do seu projeto para desempenho, compatibilidade de personagens, qualidade visual, plataforma de destino e necessidades de recursos.

Como Funciona

O plugin processa a entrada de áudio da seguinte maneira:

  1. Os dados de áudio são recebidos no formato PCM de ponto flutuante com canais e taxa de amostragem especificados
  2. O plugin processa o áudio para gerar dados de controle facial ou visemas dependendo do modelo
  3. Para modelos com ativação de humor, o contexto emocional é aplicado à animação facial
  4. Os dados de animação controlam os movimentos faciais do personagem em tempo real

Arquitetura de Desempenho

O Runtime MetaHuman Lip Sync usa inferência apenas na CPU para fornecer resultados de sincronização labial consistentes e de baixa latência, adequados para aplicações em tempo real. Por padrão, o plugin executa o processamento de sincronização labial a cada 10 milissegundos (ajustável - veja Configuração do Plugin para todas as configurações disponíveis, incluindo Tamanho do Bloco de Processamento, contagem de threads e outros parâmetros de desempenho).

Visão Geral da Arquitetura do Modelo

Os modelos de sincronização labial usam uma rede neural compacta baseada em transformadores que processa o áudio através de análise de mel-espectrograma. Esta arquitetura leve é projetada especificamente para desempenho em tempo real com inferência eficiente na CPU e pegada de memória mínima.

Por que Inferência na CPU?

Para operações de inferência pequenas e frequentes, como sincronização labial em tempo real, o processamento na CPU oferece melhores características de latência do que a GPU. Com tamanho de lote 1 e intervalos de inferência de 10-100ms, a sobrecarga da GPU com transferências PCIe e lançamentos de kernel geralmente excede o tempo real de computação. Além disso, em motores de jogo, a GPU já está saturada com renderização, shaders e física, criando contenção de recursos que introduz picos de latência imprevisíveis.

Compatibilidade de Hardware

O plugin funciona eficientemente na maioria das CPUs de nível médio ou superior sem exigir hardware gráfico dedicado, fornecendo desempenho em tempo real em plataformas desktop, móveis e de RV. Para hardware mais fraco, você pode ajustar o Tipo de Modelo para Semi-Otimizado ou Altamente Otimizado, ou aumentar o Tamanho do Bloco de Processamento para manter o desempenho em tempo real com responsividade ligeiramente reduzida.

Início Rápido

Aqui está uma configuração básica para ativar a sincronização labial no seu personagem:

  1. Para personagens MetaHuman, siga o Guia de Configuração
  2. Para personagens personalizados, siga o Guia de Configuração de Personagem Personalizado
  3. Escolha e configure seu modelo de sincronização labial preferido
  4. Configure o processamento de entrada de áudio no seu Blueprint
  5. Conecte o nó de sincronização labial apropriado no Animation Blueprint
  6. Reproduza áudio e veja seu personagem falar com emoção!

Recursos Adicionais

Projetos de Demonstração:

🎥 Tutoriais em Vídeo

Demonstrações em Destaque:

Tutoriais do Realistic Model (Alta Qualidade):

Tutoriais do Standard Model:

Configuração Geral:

💬 Suporte

  • Desenvolvimento Personalizado: [email protected] (soluções sob medida para equipes e organizações)
Join our Discord
online · support