Passa al contenuto principale

Panoramica

Documentazione di Runtime MetaHuman Lip Sync

Runtime MetaHuman Lip Sync è un plugin che abilita la sincronizzazione labiale in tempo reale, offline e cross-platform sia per i MetaHuman che per personaggi personalizzati. Ti permette di animare le labbra di un personaggio in risposta a un input audio proveniente da varie fonti, tra cui:

Il plugin genera internamente dei visemi (rappresentazioni visive dei fonemi) basandosi sull'input audio. Poiché funziona direttamente con i dati audio piuttosto che con il testo, il plugin supporta input multilingue, inclusi ma non limitati a inglese, spagnolo, francese, tedesco, giapponese, cinese, coreano, russo, italiano, portoghese, arabo e hindi. Letteralmente qualsiasi lingua è supportata poiché la sincronizzazione labiale è generata dai fonemi audio piuttosto che da un'elaborazione del testo specifica per lingua.

Il Modello Standard produce 14 visemi ed esegue l'animazione della sincronizzazione labiale utilizzando un asset di pose predefinito. Al contrario, il Modello Realistico (esclusivo per i personaggi MetaHuman) genera 250 variazioni di morph target senza fare affidamento su un asset di pose predefinito, ottenendo animazioni facciali significativamente più realistiche.

Compatibilità dei Personaggi

Nonostante il nome, Runtime MetaHuman Lip Sync funziona con una vasta gamma di personaggi oltre ai soli MetaHuman:

Sistemi di Personaggi Commerciali Popolari

  • Personaggi Daz Genesis 8/9
  • Personaggi Reallusion Character Creator 3/4 (CC3/CC4)
  • Personaggi Mixamo
  • Avatar ReadyPlayerMe

Supporto agli Standard di Animazione

  • Sistemi di blendshape basati su FACS
  • Standard di blendshape Apple ARKit
  • Set di fonemi Preston Blair
  • Sistemi di fonemi 3ds Max
  • Qualsiasi personaggio con morph target personalizzati per le espressioni facciali

Per istruzioni dettagliate sull'uso del plugin con personaggi non MetaHuman, consulta la Guida alla Configurazione per Personaggi Personalizzati.

Anteprima dell'Animazione

Guarda queste brevi animazioni per vedere la qualità della sincronizzazione labiale prodotta dal plugin su diversi tipi di personaggi e modelli:

Realistic Lip Sync Example
Modello realistico con personaggio MetaHuman
Standard Lip Sync Example
Modello standard con personaggio MetaHuman
Custom Character Lip Sync Example
Modello standard con personaggio personalizzato
Custom Character Lip Sync Example
Modello standard con personaggio personalizzato

Caratteristiche Principali

  • Sincronizzazione labiale in tempo reale dall'input del microfono
  • Supporto per l'elaborazione audio offline
  • Compatibilità cross-platform: Windows, Android, Meta Quest
  • Supporto per sistemi di personaggi multipli e standard di animazione
  • Mappatura flessibile dei visemi per personaggi personalizzati
  • Supporto universale per le lingue - funziona con qualsiasi lingua parlata attraverso l'analisi audio

Modelli di Sincronizzazione Labiale

Il plugin offre due modelli di sincronizzazione labiale per soddisfare diverse esigenze del progetto:

Il modello standard di sincronizzazione labiale offre prestazioni efficienti e cross-platform con ampia compatibilità dei personaggi:

  • Funziona con MetaHumans e tutti i tipi di personaggi personalizzati
  • Ottimizzato per prestazioni in tempo reale su tutte le piattaforme
  • Requisiti di risorse inferiori
  • Piena compatibilità con TTS locale (plugin Runtime Text To Speech)
  • Adatto per applicazioni mobile e VR/AR
Estensione Plugin Richiesta

Per utilizzare il Modello Standard (Più Veloce), è necessario installare un'ulteriore estensione plugin. Vedi la sezione Prerequisiti per le istruzioni di installazione.

Puoi scegliere il modello appropriato in base ai requisiti del tuo progetto per prestazioni, compatibilità dei personaggi e qualità visiva.

Nota sulla Compatibilità TTS

Sebbene entrambi i modelli supportino vari metodi di input audio, il modello realistico ha una compatibilità limitata con TTS locale a causa di conflitti del runtime ONNX. Per la funzionalità text-to-speech con il modello realistico, sono consigliati servizi TTS esterni (OpenAI, ElevenLabs).

Come Funziona

Il plugin elabora l'input audio nel seguente modo:

  1. I dati audio vengono ricevuti in formato PCM float con specifici canali e frequenza di campionamento
  2. Il plugin elabora l'audio per generare visemi (fonemi)
  3. Questi visemi guidano l'animazione della sincronizzazione labiale utilizzando l'asset di posa del personaggio
  4. L'animazione viene applicata al personaggio in tempo reale

Guida Rapida

Ecco una configurazione di base per abilitare la sincronizzazione labiale sul tuo personaggio:

  1. Per i personaggi MetaHuman, segui la Guida all'installazione di MetaHuman
  2. Per personaggi personalizzati, segui la Guida all'installazione per personaggi personalizzati
  3. Configura l'elaborazione dell'input audio (ad esempio nel Grafico degli eventi)
  4. Collega il nodo Blend Runtime MetaHuman Lip Sync nel Grafico delle animazioni
  5. Riproduci l'audio e guarda il tuo personaggio parlare!

Risorse aggiuntive

🎥 Tutorial video

Demo in evidenza:

Tutorial per il modello realistico (alta qualità):

Tutorial per il modello standard:

Configurazione generale:

💬 Supporto