Panoramica

Runtime MetaHuman Lip Sync è un plugin che abilita la sincronizzazione labiale in tempo reale, offline e cross-platform sia per personaggi MetaHuman che per personaggi personalizzati. Ti permette di animare le labbra di un personaggio in risposta a un input audio proveniente da varie fonti, tra cui:
- Input del microfono tramite l'onda sonora catturabile di Runtime Audio Importer
- Voce sintetizzata da Runtime Text To Speech o Runtime AI Chatbot Integrator
- Dati audio in streaming o importati in molteplici formati tramite Runtime Audio Importer
- Qualsiasi dato audio in formato PCM float (un array di campioni in virgola mobile)
Il plugin genera internamente dei visemi (rappresentazioni visive dei fonemi) basandosi sull'input audio. Poiché lavora direttamente con i dati audio piuttosto che con il testo, il plugin supporta input multilingue, inclusi ma non limitati a inglese, spagnolo, francese, tedesco, giapponese, cinese, coreano, russo, italiano, portoghese, arabo e hindi. Letteralmente qualsiasi lingua è supportata poiché la sincronizzazione labiale è generata dai fonemi audio piuttosto che da un'elaborazione del testo specifica per lingua.
Il Modello Standard produce 14 visemi ed esegue l'animazione della sincronizzazione labiale utilizzando un asset di pose predefinito. Al contrario, i Modelli Realistici (esclusivi per i personaggi MetaHuman) generano 81 variazioni nei controlli facciali senza fare affidamento su un asset di pose predefinito, ottenendo animazioni facciali significativamente più realistiche.
Compatibilità dei Personaggi
Nonostante il nome, Runtime MetaHuman Lip Sync funziona con una vasta gamma di personaggi oltre ai soli MetaHuman:
Sistemi di Personaggi Commerciali Popolari
- Personaggi Daz Genesis 8/9
- Personaggi Reallusion Character Creator 3/4 (CC3/CC4)
- Personaggi Mixamo
- Avatar ReadyPlayerMe
Supporto agli Standard di Animazione
- Sistemi di blendshape basati su FACS
- Standard di blendshape Apple ARKit
- Set di fonemi Preston Blair
- Sistemi di fonemi 3ds Max
- Qualsiasi personaggio con morph target personalizzati per le espressioni facciali
Per istruzioni dettagliate sull'uso del plugin con personaggi non MetaHuman, consulta la Guida alla Configurazione per Personaggi Personalizzati.
Anteprima delle Animazioni
Guarda queste brevi animazioni per vedere la qualità della sincronizzazione labiale prodotta dal plugin su diversi tipi di personaggi e modelli:
Caratteristiche Principali
- Sincronizzazione labiale in tempo reale dall'input del microfono
- Supporto per l'elaborazione audio offline
- Compatibilità multipiattaforma con supporto specifico per piattaforma del modello
- Supporto per sistemi di personaggi multipli e standard di animazione
- Mappatura visemi flessibile per personaggi personalizzati
- Supporto linguistico universale - funziona con qualsiasi lingua parlata attraverso l'analisi audio
- Animazione facciale consapevole dell'umore per un'espressività migliorata
- Tipi di output configurabili (controlli per l'intero viso o solo per la bocca)
Modelli di Sincronizzazione Labiale
Il plugin offre diversi modelli di sincronizzazione labiale per soddisfare le diverse esigenze del progetto:
- Modello Standard
- Modello Realistico
- Modello Realistico con Umore
Il modello standard di sincronizzazione labiale offre prestazioni efficienti e multipiattaforma con un'ampia compatibilità di personaggi:
- Funziona con MetaHumans e tutti i tipi di personaggi personalizzati
- Ottimizzato per le prestazioni in tempo reale
- Requisiti di risorse inferiori
- Supporto Piattaforma: Windows, Android, piattaforme basate su Android (incluso Meta Quest)
Per utilizzare il Modello Standard, è necessario installare un plugin di estensione aggiuntivo. Vedi la sezione Prerequisiti per le istruzioni di installazione.
Il modello realistico di sincronizzazione labiale offre una fedeltà visiva migliorata specificamente per i personaggi MetaHuman:
- Compatibile con personaggi MetaHuman e basati su ARKit con animazione facciale avanzata (81 controlli facciali)
- Qualità visiva superiore con movimenti della bocca più naturali
- Requisiti di prestazioni leggermente superiori
- Elaborazione audio in streaming per applicazioni in tempo reale
- Ideale per esperienze cinematografiche e interazioni ravvicinate con i personaggi
- Tre livelli di ottimizzazione: Originale, Semi-Ottimizzato e Altamente Ottimizzato
- Set di morph target configurabili (vedi Selezione del Set di Morph Target)
- Supporto Piattaforma: Windows, Mac, iOS, Linux, Android, piattaforme basate su Android (incluso Meta Quest)
Il Modello Realistico è incluso nel plugin principale e non richiede estensioni aggiuntive per l'uso.
Il modello realistico con umore fornisce un'animazione facciale consapevole delle emozioni per i personaggi MetaHuman:
- Compatibile con personaggi MetaHuman e basati su ARKit con animazione facciale reattiva all'umore (81 controlli facciali)
- 12 diversi tipi di umore (Neutro, Felice, Triste, Sicuro, ecc.)
- Intensità dell'umore configurabile (da 0.0 a 1.0)
- Tempistica di anticipo regolabile per una migliore sincronizzazione (da 20ms a 200ms)
- Tipi di output selezionabili: Controlli per l'Intero Viso o Solo per la Bocca
- Elaborazione audio in streaming per applicazioni in tempo reale
- Set di morph target configurabili (vedi Selezione del Set di Morph Target)
- Supporto Piattaforma: Windows, Mac, iOS, Linux, Android, piattaforme basate su Android (incluso Meta Quest)
Il Modello Realistico con Umore è incluso nel plugin principale e non richiede estensioni aggiuntive per l'uso.
Puoi scegliere il modello appropriato in base ai requisiti del tuo progetto per prestazioni, compatibilità dei personaggi, qualità visiva, piattaforma target e necessità di funzionalità.
Come Funziona
Il plugin elabora l'input audio nel modo seguente:
- I dati audio vengono ricevuti in formato PCM float con canali e frequenza di campionamento specificati
- Il plugin elabora l'audio per generare dati di controllo facciale o visemi a seconda del modello
- Per i modelli con umore, il contesto emotivo viene applicato all'animazione facciale
- I dati di animazione guidano i movimenti facciali del personaggio in tempo reale
Architettura delle Prestazioni
Runtime MetaHuman Lip Sync utilizza inferenza solo su CPU per fornire risultati di sincronizzazione labiale consistenti e a bassa latenza, adatti per applicazioni in tempo reale. Per impostazione predefinita, il plugin esegue l'elaborazione della sincronizzazione labiale ogni 10 millisecondi (regolabile - vedi Configurazione del Plugin per tutte le impostazioni disponibili, inclusa Dimensione del Chunk di Elaborazione, numero di thread e altri parametri di prestazione).
Panoramica dell'Architettura del Modello
I modelli di sincronizzazione labiale utilizzano una rete neurale compatta basata su transformer che elabora l'audio attraverso l'analisi mel-spettrogramma. Questa architettura leggera è progettata specificamente per prestazioni in tempo reale con inferenza CPU efficiente e un'impronta di memoria minima.
Perché Inferenza su CPU?
Per operazioni di inferenza piccole e frequenti come la sincronizzazione labiale in tempo reale, l'elaborazione su CPU offre caratteristiche di latenza migliori rispetto alla GPU. Con una dimensione del batch pari a 1 e intervalli di inferenza di 10-100ms, l'overhead della GPU dovuto ai trasferimenti PCIe e alle esecuzioni dei kernel spesso supera il tempo di calcolo effettivo. Inoltre, nei motori di gioco la GPU è già satura di rendering, shader e fisica, creando una contesa di risorse che introduce picchi di latenza imprevedibili.
Compatibilità Hardware
Il plugin funziona in modo efficiente sulla maggior parte delle CPU di fascia media e superiore senza richiedere hardware grafico dedicato, fornendo prestazioni in tempo reale su piattaforme desktop, mobili e VR. Per hardware più debole, puoi regolare il Tipo di Modello su Semi-Ottimizzato o Altamente Ottimizzato, o aumentare la Dimensione del Chunk di Elaborazione per mantenere le prestazioni in tempo reale con una reattività leggermente ridotta.
Guida Rapida
Ecco una configurazione di base per abilitare la sincronizzazione labiale sul tuo personaggio:
- Per i personaggi MetaHuman, segui la Guida di Configurazione
- Per i personaggi personalizzati, segui la Guida di Configurazione per Personaggi Personalizzati
- Scegli e configura il tuo modello di sincronizzazione labiale preferito
- Configura l'elaborazione dell'input audio nel tuo Blueprint
- Collega il nodo di sincronizzazione labiale appropriato nell'Animation Blueprint
- Riproduci l'audio e guarda il tuo personaggio parlare con emozione!
Risorse Aggiuntive
📦 Download & Link
Progetti Demo:
- Demo Speech-to-Speech (Flusso di Lavoro AI Completo):
- Scarica demo confezionata (Windows) ⭐ NUOVO
- Scarica file sorgente (UE 5.6+) ⭐ NUOVO
- Flusso di lavoro completo: riconoscimento vocale + chatbot AI + TTS + sincronizzazione labiale
- Richiede: Questo plugin + Runtime Audio Importer + Runtime Speech Recognizer + Runtime AI Chatbot Integrator, opzionale: Runtime Text To Speech
- Demo di Sincronizzazione Labiale di Base:
- Scarica demo confezionata (Windows)
- Scarica file sorgente (UE 5.6+)
- Flussi di lavoro di base: input microfono, file audio, TTS
- Richiede: Questo plugin + Runtime Audio Importer, opzionale: Text To Speech / AI Chatbot
- Il modello standard richiede un piccolo plugin di estensione (vedi qui)
🎥 Video Tutorial
Demo in Evidenza:
Tutorial Modello Realistico (Alta Qualità):
- Sincronizzazione Labiale di Alta Qualità con Controllo Umore & TTS Locale
- Sincronizzazione Labiale di Alta Qualità con ElevenLabs & OpenAI TTS
- Sincronizzazione Labiale in Tempo Reale da Microfono di Alta Qualità
Tutorial Modello Standard:
- Sincronizzazione Labiale in Tempo Reale da Microfono Standard
- Sincronizzazione Labiale Standard con Text-to-Speech Locale
- Sincronizzazione Labiale Standard con ElevenLabs & OpenAI TTS
Configurazione Generale:
💬 Supporto
- Server di supporto Discord
- Sviluppo Personalizzato: [email protected] (soluzioni su misura per team e organizzazioni)