Pular para o conteúdo principal

Visão Geral

Documentação do Runtime MetaHuman Lip Sync

Runtime MetaHuman Lip Sync é um plugin que permite lip sync em tempo real, offline e multiplataforma para personagens MetaHuman e personalizados. Ele permite que você anime os lábios de um personagem em resposta a um áudio de entrada de várias fontes, incluindo:

O plugin gera internamente visemas (representações visuais de fonemas) com base no áudio de entrada. Como ele funciona diretamente com dados de áudio em vez de texto, o plugin suporta entrada multilíngue, incluindo, mas não se limitando a, inglês, espanhol, francês, alemão, japonês, chinês, coreano, russo, italiano, português, árabe e hindi. Literalmente, qualquer idioma é suportado, pois o lip sync é gerado a partir de fonemas de áudio, e não de processamento de texto específico de um idioma.

O Modelo Padrão produz 14 visemas e executa a animação de lip sync usando um ativo de pose predefinido. Em contraste, os Modelos Realistas (exclusivos para personagens MetaHuman) geram 81 alterações de controle facial sem depender de um ativo de pose predefinido, resultando em animações faciais significativamente mais realistas.

Compatibilidade de Personagens

Apesar do nome, o Runtime MetaHuman Lip Sync funciona com uma ampla gama de personagens além dos MetaHumans:

Sistemas de Personagens Comerciais Populares

  • Personagens Daz Genesis 8/9
  • Personagens Reallusion Character Creator 3/4 (CC3/CC4)
  • Personagens Mixamo
  • Avatares ReadyPlayerMe

Suporte a Padrões de Animação

  • Sistemas de blendshape baseados em FACS
  • Padrão de blendshape Apple ARKit
  • Conjuntos de fonemas Preston Blair
  • Sistemas de fonemas 3ds Max
  • Qualquer personagem com morph targets personalizados para expressões faciais

Para instruções detalhadas sobre como usar o plugin com personagens não-MetaHuman, consulte o Guia de Configuração de Personagem Personalizado.

Prévia da Animação

Confira estas animações curtas para ver a qualidade da animação de lip sync produzida pelo plugin em diferentes tipos de personagens e modelos:

Realistic Lip Sync Example
Modelo realista com personagem MetaHuman
Standard Lip Sync Example
Modelo padrão com personagem MetaHuman
Custom Character Lip Sync Example
Modelo padrão com personagem personalizado
Custom Character Lip Sync Example
Modelo padrão com personagem personalizado

Principais Recursos

  • Sincronização labial em tempo real a partir de entrada de microfone
  • Suporte a processamento de áudio offline
  • Compatibilidade multiplataforma com suporte específico por plataforma para modelos
  • Suporte para múltiplos sistemas de personagens e padrões de animação
  • Mapeamento flexível de visemas para personagens personalizados
  • Suporte universal de idiomas - funciona com qualquer idioma falado através de análise de áudio
  • Animação facial consciente do humor para maior expressividade
  • Tipos de saída configuráveis (controles de rosto completo ou apenas boca)

Modelos de Sincronização Labial

O plugin oferece múltiplos modelos de sincronização labial para atender diferentes necessidades do projeto:

O modelo de sincronização labial padrão oferece desempenho eficiente e multiplataforma com ampla compatibilidade de personagens:

  • Funciona com MetaHumans e todos os tipos de personagens personalizados
  • Otimizado para desempenho em tempo real
  • Requisitos de recursos mais baixos
  • Compatibilidade total com TTS local (plugin Runtime Text To Speech)
  • Suporte de Plataforma: Windows, Android, plataformas baseadas em Android (incluindo Meta Quest)
  • Três níveis de otimização: Original, Semi-Otimizado e Altamente Otimizado
Plugin de Extensão Necessário

Para usar o Modelo Padrão, você precisa instalar um plugin de extensão adicional. Veja a seção Pré-requisitos para instruções de instalação.

Você pode escolher o modelo apropriado com base nos requisitos do seu projeto para desempenho, compatibilidade de personagem, qualidade visual, plataforma de destino e necessidades de recursos.

Nota sobre Compatibilidade TTS

Embora todos os modelos suportem vários métodos de entrada de áudio, o modelo Realista regular tem compatibilidade limitada com TTS local devido a conflitos de runtime ONNX. O modelo Realista com Habilitação de Humor, no entanto, é totalmente compatível com TTS local. Para funcionalidade de text-to-speech:

  • Modelo Padrão: Compatível com todas as opções TTS (local e externa)
  • Modelo Realista: Serviços TTS externos recomendados (OpenAI, ElevenLabs)
  • Modelo Realista com Habilitação de Humor: Compatível com todas as opções TTS (local e externa)

Como Funciona

O plugin processa a entrada de áudio da seguinte maneira:

  1. Os dados de áudio são recebidos no formato PCM float com canais e taxa de amostragem especificados
  2. O plugin processa o áudio para gerar dados de controle facial ou visemas dependendo do modelo
  3. Para modelos com habilitação de humor, o contexto emocional é aplicado à animação facial
  4. Os dados de animação conduzem os movimentos faciais do personagem em tempo real

Início Rápido

Aqui está uma configuração básica para habilitar a sincronização labial no seu personagem:

  1. Para personagens MetaHuman, siga o Guia de Configuração
  2. Para personagens personalizados, siga o Guia de Configuração de Personagem Personalizado
  3. Escolha e configure seu modelo de sincronização labial preferido
  4. Configure o processamento de entrada de áudio no seu Blueprint
  5. Conecte o nó de sincronização labial apropriado no Animation Blueprint
  6. Reproduza áudio e veja seu personagem falar com emoção!

Recursos Adicionais

🎥 Tutoriais em Vídeo

Demonstração em Destaque:

Tutoriais de Modelo Realista (Alta Qualidade):

Tutoriais de Modelo Padrão:

Configuração Geral:

💬 Suporte