Progetti dimostrativi
Per aiutarti a iniziare rapidamente con Runtime MetaHuman Lip Sync, due progetti dimostrativi già pronti sono disponibili. Entrambi sono sviluppati con Unreal Engine 5.6 (e supportati su UE 5.7+), sono Blueprint-only e funzionano multipiattaforma su Windows, Mac, Linux, iOS, Android e piattaforme basate su Android (inclusi Meta Quest).
Progetti dimostrativi disponibili
- NPC conversazionale AI
- Demo di Lip Sync di Base
Un flusso di lavoro completo per NPC conversazionale AI che combina riconoscimento vocale, un chatbot AI (LLM), sintesi vocale e riproduzione audio con sincronizzazione labiale in tempo reale - il tutto eseguito insieme in un unico progetto.
Panoramica del flusso di lavoro
🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback
Video in primo piano
Download
Plugin richiesti e opzionali
Il progetto demo è modulare - ti servono solo i plugin per i provider che intendi utilizzare.
| Plugin | Scopo | Richiesto? |
|---|---|---|
| Runtime MetaHuman Lip Sync | Animazione del sincronismo labiale | ✅ Sempre |
| Runtime Audio Importer | Cattura ed elaborazione audio | ✅ Sempre |
| Runtime Speech Recognizer | Riconoscimento vocale offline (whisper.cpp) | ✅ Sempre |
| Runtime AI Chatbot Integrator | LLM esterni (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) e/o TTS esterni (OpenAI, ElevenLabs) | 🔶 Opzionale* |
| Runtime Local LLM | Inferenza LLM locale tramite llama.cpp (modelli Llama, Mistral, Gemma, ecc., GGUF) | 🔶 Opzionale* |
| Runtime Text To Speech | TTS locale tramite Piper e Kokoro | 🔶 Opzionale* |
* Hai bisogno di almeno un provider LLM e almeno un provider TTS. Puoi combinare liberamente (ad es., LLM locale + TTS ElevenLabs, o LLM OpenAI + TTS locale).
Architettura modulare
Il progetto demo è completamente modulare. Nella cartella Content troverai una cartella Modules che contiene tre sottocartelle:
Content/
└── Modules/
├── RuntimeAIChatbotIntegrator/ ← External LLMs and/or external TTS
├── RuntimeLocalLLM/ ← Local LLM via llama.cpp
└── RuntimeTextToSpeech/ ← Local TTS via Piper/Kokoro
Se non si possiede uno (o più) dei plugin opzionali, è sufficiente eliminare le cartelle corrispondenti. Gli asset di base del progetto demo (istanza del gioco, widget, ecc.) non referenziano questi moduli direttamente, quindi la loro cancellazione non causerà errori di riferimento degli asset. L'interfaccia di configurazione nasconderà automaticamente qualsiasi provider la cui cartella manca.
Questa modularità si applica solo ai provider LLM e TTS. Speech Recognition (Runtime Speech Recognizer) e Lip Sync (Runtime MetaHuman Lip Sync) fanno parte del progetto demo di base e sono sempre richiesti.

Al primo avvio, Unreal potrebbe chiedere se disabilitare eventuali plugin opzionali mancanti – fare clic su Sì. Assicurarsi inoltre di aver eliminato la cartella Content/Modules/ corrispondente (vedere sopra).
Layout del Progetto Demo
L'interfaccia mostrata di seguito è costruita interamente con UMG (Unreal Motion Graphics) ed è destinata esclusivamente a dimostrazione della pipeline – riconoscimento vocale → LLM → TTS → lip sync. Siete liberi di personalizzarla o sostituirla per adattarla al design visivo del vostro gioco, allo schema di controllo o alla piattaforma (VR/AR, mobile, console, ecc.). Se alcuni widget non sono necessari nel vostro caso d'uso, potete anche semplicemente nasconderli (ad esempio impostando la loro visibilità su Collapsed o Hidden).

| Area | Contenuto |
|---|---|
| Centro | Il personaggio MetaHuman. |
| Lato sinistro | Quattro pulsanti di configurazione (Riconoscimento vocale, Chatbot AI, Sintesi vocale, Animazioni), descritti in dettaglio di seguito. |
| Centro in basso | Un pulsante Avvia registrazione. Fare clic per iniziare una conversazione vocale: il microfono viene catturato, trascritto, inviato al LLM, la risposta viene sintetizzata tramite TTS e riprodotta con lip sync, completamente a mani libere. |
| Centro a destra | Un widget della cronologia della conversazione che mostra l'intero scambio tra voi e l'IA (messaggi utente e assistente). Include anche un campo di inserimento testo, in modo da poter digitare i messaggi direttamente senza usare il riconoscimento vocale, utile per test, accessibilità o quando il microfono non è disponibile. |
È possibile mescolare liberamente entrambe le modalità di input nella stessa sessione – pronunciare alcuni messaggi, digitarne altri.
Pulsanti di Configurazione
I quattro pulsanti di configurazione sulla sinistra aprono pannelli dedicati per ogni parte della pipeline:
1. Configura Riconoscimento Vocale
Configura come la voce dell'utente viene catturata e trascritta:
- Selezionare la lingua
- Regolare i parametri di riconoscimento vocale (impostazioni del modello Whisper)
- Configurare AEC (Acoustic Echo Cancellation)
- Configurare VAD (Voice Activity Detection)

2. Configura Chatbot AI
Scegliere il provider LLM e configurarlo:
- Selezionare il provider (Runtime AI Chatbot Integrator o Runtime Local LLM)
- Per provider esterni: token di autenticazione, nome del modello, ecc.
- Per LLM locale: selezionare un modello GGUF, impostare la dimensione del contesto e altri parametri di inferenza. È anche possibile scaricare il proprio modello GGUF a runtime direttamente dal demo (ad esempio tramite URL) e utilizzarlo immediatamente senza ricompilare il progetto.
La casella combinata dei provider mostra solo i provider la cui cartella del modulo plugin è presente in Content/Modules/.


3. Configura Sintesi Vocale
Scegliere il provider TTS e configurare voci/modelli:
- Selezionare il provider (Runtime AI Chatbot Integrator per OpenAI/ElevenLabs, o Runtime Text To Speech per Piper/Kokoro locale)
- Selezionare voce/modello
- Regolare i parametri specifici del provider


4. Configura Animazioni
Controllare l'aspetto visivo del proprio personaggio AI NPC:
- Scegliere tra 3 personaggi MetaHuman pre-scaricati (Aera, Ada, Orlando)
- Selezionare il modello di lip sync (Standard o Realistic)
- Selezionare il tipo di modello di lip sync - Highly Optimized, Semi-Optimized o Original (vedere Tipo di Modello)
- Regolare la Processing Chunk Size - controlla la frequenza di esecuzione dell'inferenza del lip sync (vedere Processing Chunk Size)
- Selezionare un'animazione inattiva da riprodurre sul MetaHuman durante la conversazione

Pre-Configurazione del Demo nell'Editor
Quando si lavora con la versione sorgente, è possibile precompilare i valori predefiniti direttamente nell'editor in modo da non doverli reinserire a ogni esecuzione:
| Cosa | Dove |
|---|---|
| Impostazioni generali (modello di lip sync, animazione inattiva, classe del personaggio, riconoscimento vocale, ecc.) | Content/LipSyncSTSGameInstance |
| Impostazioni LLM esterno / TTS esterno (Runtime AI Chatbot Integrator) | Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider |
| Impostazioni LLM locale (Runtime Local LLM) | Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider |
| Impostazioni TTS locale (Runtime Text To Speech) | Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider |
Note Multipiattaforma
Tutti i plugin utilizzati dal demo supportano Windows, Mac, Linux, iOS, Android e piattaforme basate su Android (incluso Meta Quest), quindi il progetto demo funziona su tutte queste.
Per dispositivi meno performanti (mobile, VR standalone), si consiglia di:
- Utilizzare il modello di lip sync Standard invece di Realistic - vedere il confronto tra modelli
- Passare al tipo di modello Highly Optimized
- Aumentare la Processing Chunk Size per ridurre il carico della CPU
- Scegliere modelli LLM / TTS più piccoli
Vedere Configurazione specifica per piattaforma per ulteriori passaggi di configurazione su Android, iOS, Mac e Linux.
Portare il Proprio MetaHuman
Il progetto demo include tre personaggi MetaHuman di esempio (Aera, Ada, Orlando), ma è possibile importare il proprio MetaHuman e utilizzarlo nel demo.
📺 Tutorial video: Aggiungere un Personaggio MetaHuman Personalizzato al Progetto Demo
Il plugin Runtime MetaHuman Lip Sync supporta anche molti altri sistemi di personaggi oltre ai MetaHuman (personaggi basati su ARKit, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe, ecc. - vedere la Guida alla Configurazione di Personaggi Personalizzati).
Un progetto demo più semplice che si focalizza esclusivamente sulla funzionalità di lip sync in sé, senza l'intero flusso di lavoro conversazionale AI. Adatto se si desidera solo vedere il lip sync in azione con varie sorgenti audio.
Video in Evidenza
Download
Cosa è Incluso
Questo demo presenta i flussi di lavoro basilari del lip sync:
- Input da microfono - lip sync in tempo reale dall'audio live
- Riproduzione di file audio - lip sync da file audio importati
- Sintesi vocale - lip sync guidato da parlato sintetizzato
Plugin Richiesti e Opzionali
| Plugin | Scopo | Richiesto? |
|---|---|---|
| Runtime MetaHuman Lip Sync | Animazione lip sync | ✅ Richiesto |
| Runtime Audio Importer | Importazione e cattura audio | ✅ Richiesto |
| Runtime Text To Speech | TTS locale per la scena demo TTS | 🔶 Opzionale |
| Runtime AI Chatbot Integrator | Provider TTS esterni (OpenAI, ElevenLabs) | 🔶 Opzionale |
Note per il Modello di Lip Sync Standard
Se si prevede di utilizzare il Modello Standard (invece di Realistic) in uno dei progetti demo, sarà necessario installare il plugin Standard Lip Sync Extension. Vedere Estensione Modello Standard per le istruzioni di installazione.
Hai Bisogno di Aiuto?
Se incontri problemi nell'impostazione o nell'esecuzione dei progetti demo, non esitare a contattarci:
Per richieste di sviluppo personalizzato (ad es. estendere la demo con la propria logica, adattarla per una piattaforma specifica o una pipeline di personaggi), contattare [email protected].