Pular para o conteúdo principal

Visão Geral

Documentação do Runtime MetaHuman Lip Sync

Runtime MetaHuman Lip Sync é um plugin que permite sincronização labial em tempo real, offline e multiplataforma para personagens MetaHuman e personalizados. Ele permite animar os lábios de um personagem em resposta a uma entrada de áudio de várias fontes, incluindo:

O plugin gera internamente visemas (representações visuais de fonemas) com base na entrada de áudio. Como ele trabalha diretamente com dados de áudio em vez de texto, o plugin suporta entrada multilíngue, incluindo, mas não se limitando a, inglês, espanhol, francês, alemão, japonês, chinês, coreano, russo, italiano, português, árabe e hindi. Literalmente qualquer idioma é suportado, pois a sincronização labial é gerada a partir de fonemas de áudio, e não de processamento de texto específico de idioma.

O Modelo Padrão produz 14 visemas e executa a animação de sincronização labial usando um ativo de pose predefinido. Em contraste, os Modelos Realistas (exclusivos para personagens MetaHuman) geram 81 alterações de controle facial sem depender de um ativo de pose predefinido, resultando em animações faciais significativamente mais realistas.

Compatibilidade de Personagens

Apesar do nome, o Runtime MetaHuman Lip Sync funciona com uma ampla gama de personagens além dos MetaHumans:

Sistemas de Personagens Comerciais Populares

  • Personagens Daz Genesis 8/9
  • Personagens Reallusion Character Creator 3/4 (CC3/CC4)
  • Personagens Mixamo
  • Avatares ReadyPlayerMe

Suporte a Padrões de Animação

  • Sistemas de blendshape baseados em FACS
  • Padrão de blendshape Apple ARKit
  • Conjuntos de fonemas Preston Blair
  • Sistemas de fonemas 3ds Max
  • Qualquer personagem com morph targets personalizados para expressões faciais

Para instruções detalhadas sobre como usar o plugin com personagens não MetaHuman, consulte o Guia de Configuração de Personagens Personalizados.

Prévia da Animação

Confira estas animações curtas para ver a qualidade da animação de sincronização labial produzida pelo plugin em diferentes tipos de personagens e modelos:

Realistic Lip Sync Example
Modelo realista com personagem MetaHuman
Standard Lip Sync Example
Modelo padrão com personagem MetaHuman
Custom Character Lip Sync Example
Modelo padrão com personagem personalizado
Custom Character Lip Sync Example
Modelo padrão com personagem personalizado

Principais Recursos

  • Sincronização labial em tempo real a partir de entrada de microfone
  • Suporte a processamento de áudio offline
  • Compatibilidade multiplataforma com suporte específico por plataforma para modelos
  • Suporte para múltiplos sistemas de personagens e padrões de animação
  • Mapeamento flexível de visemas para personagens personalizados
  • Suporte universal a idiomas - funciona com qualquer idioma falado através de análise de áudio
  • Animação facial consciente do humor para maior expressividade
  • Tipos de saída configuráveis (controles de rosto completo ou apenas boca)

Modelos de Sincronização Labial

O plugin oferece múltiplos modelos de sincronização labial para atender diferentes necessidades do projeto:

O modelo de sincronização labial padrão oferece desempenho eficiente e multiplataforma com ampla compatibilidade de personagens:

  • Funciona com MetaHumans e todos os tipos de personagens personalizados
  • Otimizado para desempenho em tempo real
  • Requisitos de recursos mais baixos
  • Compatibilidade total com TTS local (plugin Runtime Text To Speech)
  • Suporte de Plataforma: Windows, Android, plataformas baseadas em Android (incluindo Meta Quest)
Plugin de Extensão Necessário

Para usar o Modelo Padrão, você precisa instalar um plugin de extensão adicional. Consulte a seção Pré-requisitos para instruções de instalação.

Você pode escolher o modelo apropriado com base nos requisitos do seu projeto para desempenho, compatibilidade de personagem, qualidade visual, plataforma de destino e necessidades de recursos.

Nota sobre Compatibilidade de TTS

Embora todos os modelos suportem vários métodos de entrada de áudio, o modelo Realista regular tem compatibilidade limitada com TTS local devido a conflitos de runtime ONNX. O modelo Realista Habilitado para Humor, no entanto, é totalmente compatível com TTS local. Para funcionalidade de texto-para-voz:

  • Modelo Padrão: Compatível com todas as opções de TTS (local e externa)
  • Modelo Realista: Serviços de TTS externos recomendados (OpenAI, ElevenLabs)
  • Modelo Realista Habilitado para Humor: Compatível com todas as opções de TTS (local e externa)

Como Funciona

O plugin processa a entrada de áudio da seguinte maneira:

  1. Os dados de áudio são recebidos no formato PCM float com canais e taxa de amostragem especificados
  2. O plugin processa o áudio para gerar dados de controle facial ou visemas dependendo do modelo
  3. Para modelos habilitados para humor, o contexto emocional é aplicado à animação facial
  4. Os dados de animação controlam os movimentos faciais do personagem em tempo real

Arquitetura de Desempenho

O Runtime MetaHuman Lip Sync usa inferência somente em CPU para fornecer resultados de sincronização labial consistentes e de baixa latência, adequados para aplicações em tempo real. Por padrão, o plugin executa o processamento de sincronização labial a cada 10 milissegundos (ajustável - consulte Configuração do Plugin para todas as configurações disponíveis, incluindo Tamanho do Bloco de Processamento, contagem de threads e outros parâmetros de desempenho).

Visão Geral da Arquitetura do Modelo

Os modelos de sincronização labial usam uma rede neural compacta baseada em transformador que processa o áudio através de análise de mel-espectrograma. Esta arquitetura leve é projetada especificamente para desempenho em tempo real com inferência eficiente em CPU e pegada de memória mínima.

Por que Inferência em CPU?

Para operações de inferência pequenas e frequentes, como sincronização labial em tempo real, o processamento em CPU oferece melhores características de latência do que a GPU. Com tamanho de lote 1 e intervalos de inferência de 10-100ms, a sobrecarga da GPU com transferências PCIe e lançamentos de kernel frequentemente excede o tempo real de computação. Além disso, em motores de jogo, a GPU já está saturada com renderização, shaders e física, criando contenção de recursos que introduz picos de latência imprevisíveis.

Compatibilidade de Hardware

O plugin funciona de forma eficiente na maioria das CPUs de médio e alto desempenho sem exigir hardware gráfico dedicado, fornecendo desempenho em tempo real em plataformas desktop, móveis e de VR. Para hardware mais fraco, você pode ajustar o Tipo de Modelo para Semi-Otimizado ou Altamente Otimizado, ou aumentar o Tamanho do Bloco de Processamento para manter o desempenho em tempo real com uma responsividade ligeiramente reduzida.

Início Rápido

Aqui está uma configuração básica para habilitar a sincronização labial no seu personagem:

  1. Para personagens MetaHuman, siga o Guia de Configuração
  2. Para personagens personalizados, siga o Guia de Configuração de Personagem Personalizado
  3. Escolha e configure seu modelo de sincronização labial preferido
  4. Configure o processamento de entrada de áudio no seu Blueprint
  5. Conecte o nó de sincronização labial apropriado no Animation Blueprint
  6. Reproduza áudio e veja seu personagem falar com emoção!

Recursos Adicionais

🎥 Tutoriais em Vídeo

Demonstração em Destaque:

Tutoriais do Modelo Realista (Alta Qualidade):

Tutoriais do Modelo Padrão:

Configuração Geral:

💬 Suporte