Panoramica

Runtime MetaHuman Lip Sync è un plugin che abilita la sincronizzazione labiale in tempo reale, offline e cross-platform sia per personaggi MetaHuman che per personaggi personalizzati. Ti permette di animare le labbra di un personaggio in risposta a un input audio proveniente da varie fonti, tra cui:

Input microfonico tramite l'onda sonora catturabile di Runtime Audio Importer
Voce sintetizzata da Runtime Text To Speech o Runtime AI Chatbot Integrator
Dati audio in streaming o importati in molteplici formati tramite Runtime Audio Importer
Qualsiasi dato audio in formato PCM float (un array di campioni in virgola mobile)

Il plugin genera internamente dei visemi (rappresentazioni visive dei fonemi) basandosi sull'input audio. Poiché lavora direttamente con i dati audio piuttosto che con il testo, il plugin supporta input multilingue, inclusi ma non limitati a inglese, spagnolo, francese, tedesco, giapponese, cinese, coreano, russo, italiano, portoghese, arabo e hindi. Letteralmente qualsiasi lingua è supportata, poiché la sincronizzazione labiale è generata dai fonemi audio piuttosto che da un'elaborazione del testo specifica per lingua.

Il Modello Standard produce 14 visemi ed esegue l'animazione della sincronizzazione labiale utilizzando un asset di pose predefinito. Al contrario, i Modelli Realistici (esclusivi per i personaggi MetaHuman) generano 81 variazioni nei controlli facciali senza fare affidamento su un asset di pose predefinito, ottenendo animazioni facciali significativamente più realistiche.

Compatibilità dei Personaggi

Nonostante il nome, Runtime MetaHuman Lip Sync funziona con una vasta gamma di personaggi oltre ai soli MetaHuman:

Sistemi di Personaggi Commerciali Popolari

Personaggi Daz Genesis 8/9
Personaggi Reallusion Character Creator 3/4 (CC3/CC4)
Personaggi Mixamo
Avatar ReadyPlayerMe

Supporto agli Standard di Animazione

Sistemi di blendshape basati su FACS
Standard di blendshape Apple ARKit
Set di fonemi Preston Blair
Sistemi di fonemi 3ds Max
Qualsiasi personaggio con morph target personalizzati per le espressioni facciali

Per istruzioni dettagliate sull'uso del plugin con personaggi non MetaHuman, consulta la Guida alla Configurazione per Personaggi Personalizzati.

Anteprima delle Animazioni

Guarda queste brevi animazioni per vedere la qualità della sincronizzazione labiale prodotta dal plugin su diversi tipi di personaggi e modelli:

Realistic Lip Sync Example — *Modello realistico con personaggio MetaHuman*

Standard Lip Sync Example — *Modello standard con personaggio MetaHuman*

Custom Character Lip Sync Example — *Modello standard con personaggio personalizzato*

Caratteristiche Principali

Sincronizzazione labiale in tempo reale dall'input del microfono
Supporto per l'elaborazione audio offline
Compatibilità multipiattaforma con supporto specifico per piattaforma del modello
Supporto per sistemi di personaggi multipli e standard di animazione
Mappatura visemi flessibile per personaggi personalizzati
Supporto linguistico universale - funziona con qualsiasi lingua parlata tramite analisi audio
Animazione facciale consapevole dell'umore per una maggiore espressività
Tipi di output configurabili (controlli per l'intero viso o solo per la bocca)

Modelli di Sincronizzazione Labiale

Il plugin offre diversi modelli di sincronizzazione labiale per soddisfare le diverse esigenze del progetto:

Modello Standard
Modello Realistico
Modello Realistico con Umore

Il modello di sincronizzazione labiale standard offre prestazioni efficienti e multipiattaforma con ampia compatibilità dei personaggi:

Funziona con MetaHumans e tutti i tipi di personaggi personalizzati
Ottimizzato per le prestazioni in tempo reale
Requisiti di risorse inferiori
Piena compatibilità con TTS locale (plugin Runtime Text To Speech)
Supporto Piattaforma: Windows, Android, piattaforme basate su Android (incluso Meta Quest)

Plugin di Estensione Richiesto

Per utilizzare il Modello Standard, è necessario installare un ulteriore plugin di estensione. Vedi la sezione Prerequisiti per le istruzioni di installazione.

Puoi scegliere il modello appropriato in base ai requisiti del tuo progetto per prestazioni, compatibilità dei personaggi, qualità visiva, piattaforma di destinazione e necessità di funzionalità.

Nota sulla Compatibilità TTS

Sebbene tutti i modelli supportino vari metodi di input audio, il modello Realistico regolare ha una compatibilità limitata con il TTS locale a causa di conflitti con il runtime ONNX. Il modello Realistico con Umore, tuttavia, è completamente compatibile con il TTS locale. Per la funzionalità di sintesi vocale:

Modello Standard: Compatibile con tutte le opzioni TTS (locale ed esterne)
Modello Realistico: Si consigliano servizi TTS esterni (OpenAI, ElevenLabs)
Modello Realistico con Umore: Compatibile con tutte le opzioni TTS (locale ed esterne)

Come Funziona

Il plugin elabora l'input audio nel modo seguente:

I dati audio vengono ricevuti in formato PCM float con canali e frequenza di campionamento specificati
Il plugin elabora l'audio per generare dati di controllo facciale o visemi a seconda del modello
Per i modelli con umore, il contesto emotivo viene applicato all'animazione facciale
I dati di animazione guidano i movimenti facciali del personaggio in tempo reale

Architettura delle Prestazioni

Runtime MetaHuman Lip Sync utilizza inferenza solo su CPU per fornire risultati di sincronizzazione labiale consistenti e a bassa latenza adatti ad applicazioni in tempo reale. Per impostazione predefinita, il plugin esegue l'elaborazione della sincronizzazione labiale ogni 10 millisecondi (regolabile - vedi Configurazione Plugin per tutte le impostazioni disponibili, inclusa Dimensione Blocco Elaborazione, numero di thread e altri parametri di prestazione).

Panoramica dell'Architettura del Modello

I modelli di sincronizzazione labiale utilizzano una rete neurale compatta basata su transformer che elabora l'audio attraverso l'analisi mel-spettrogramma. Questa architettura leggera è progettata specificamente per prestazioni in tempo reale con inferenza CPU efficiente e un'impronta di memoria minima.

Perché Inferenza su CPU?

Per operazioni di inferenza piccole e frequenti come la sincronizzazione labiale in tempo reale, l'elaborazione su CPU offre caratteristiche di latenza migliori rispetto alla GPU. Con dimensione del batch 1 e intervalli di inferenza di 10-100ms, l'overhead della GPU dovuto ai trasferimenti PCIe e alle esecuzioni del kernel spesso supera il tempo di calcolo effettivo. Inoltre, nei motori di gioco la GPU è già satura di rendering, shader e fisica, creando una contesa di risorse che introduce picchi di latenza imprevedibili.

Compatibilità Hardware

Il plugin funziona in modo efficiente sulla maggior parte delle CPU di fascia media e superiore senza richiedere hardware grafico dedicato, fornendo prestazioni in tempo reale su piattaforme desktop, mobili e VR. Per hardware più debole, puoi regolare il Tipo di Modello su Semi-Ottimizzato o Altamente Ottimizzato, o aumentare la Dimensione Blocco Elaborazione per mantenere prestazioni in tempo reale con una reattività leggermente ridotta.

Guida Rapida

Ecco una configurazione di base per abilitare la sincronizzazione labiale sul tuo personaggio:

Per i personaggi MetaHuman, segui la Guida di Configurazione
Per i personaggi personalizzati, segui la Guida di Configurazione per Personaggi Personalizzati
Scegli e configura il tuo modello di sincronizzazione labiale preferito
Configura l'elaborazione dell'input audio nel tuo Blueprint
Collega il nodo di sincronizzazione labiale appropriato nell'Animation Blueprint
Riproduci l'audio e guarda il tuo personaggio parlare con emozione!

Risorse Aggiuntive

📦 Download & Link

Acquistalo su Fab
Sito web del prodotto
Scarica Demo (Windows)
Scarica file sorgente demo (UE 5.6) – Richiede questo plugin + Runtime Audio Importer, opzionale: Text To Speech / AI Chatbot. Il modello standard richiede un piccolo plugin di estensione (vedi qui)

🎥 Video Tutorial

Demo in Evidenza:

Demo Modello Realistico – Precisione Migliorata

Tutorial Modello Realistico (Alta Qualità):

Tutorial Modello Standard:

Configurazione Generale:

💬 Supporto

Server di supporto Discord
Sviluppo Personalizzato: [email protected] (soluzioni su misura per team e organizzazioni)

Compatibilità dei Personaggi​

Sistemi di Personaggi Commerciali Popolari​

Supporto agli Standard di Animazione​

Anteprima delle Animazioni​

Caratteristiche Principali​

Modelli di Sincronizzazione Labiale​

Come Funziona​

Architettura delle Prestazioni​

Panoramica dell'Architettura del Modello​

Perché Inferenza su CPU?​

Compatibilità Hardware​

Guida Rapida​

Risorse Aggiuntive​

📦 Download & Link​

🎥 Video Tutorial​

Demo in Evidenza:​

Tutorial Modello Realistico (Alta Qualità):​

Tutorial Modello Standard:​

Configurazione Generale:​

💬 Supporto​