Passa al contenuto principale

Progetti dimostrativi

Per aiutarti a iniziare rapidamente con Runtime MetaHuman Lip Sync, due progetti dimostrativi già pronti sono disponibili. Entrambi sono sviluppati con Unreal Engine 5.6 (e supportati su UE 5.7+), sono Blueprint-only e funzionano multipiattaforma su Windows, Mac, Linux, iOS, Android e piattaforme basate su Android (inclusi Meta Quest).

Progetti dimostrativi disponibili

Un flusso di lavoro completo per NPC conversazionale AI che combina riconoscimento vocale, un chatbot AI (LLM), sintesi vocale e riproduzione audio con sincronizzazione labiale in tempo reale - il tutto eseguito insieme in un unico progetto.

Panoramica del flusso di lavoro

🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback

Video in primo piano

Download

Plugin richiesti e opzionali

Il progetto demo è modulare - ti servono solo i plugin per i provider che intendi utilizzare.

PluginScopoRichiesto?
Runtime MetaHuman Lip SyncAnimazione del sincronismo labiale✅ Sempre
Runtime Audio ImporterCattura ed elaborazione audio✅ Sempre
Runtime Speech RecognizerRiconoscimento vocale offline (whisper.cpp)✅ Sempre
Runtime AI Chatbot IntegratorLLM esterni (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) e/o TTS esterni (OpenAI, ElevenLabs)🔶 Opzionale*
Runtime Local LLMInferenza LLM locale tramite llama.cpp (modelli Llama, Mistral, Gemma, ecc., GGUF)🔶 Opzionale*
Runtime Text To SpeechTTS locale tramite Piper e Kokoro🔶 Opzionale*

* Hai bisogno di almeno un provider LLM e almeno un provider TTS. Puoi combinare liberamente (ad es., LLM locale + TTS ElevenLabs, o LLM OpenAI + TTS locale).

Architettura modulare

Il progetto demo è completamente modulare. Nella cartella Content troverai una cartella Modules che contiene tre sottocartelle:

Content/
└── Modules/
├── RuntimeAIChatbotIntegrator/ ← External LLMs and/or external TTS
├── RuntimeLocalLLM/ ← Local LLM via llama.cpp
└── RuntimeTextToSpeech/ ← Local TTS via Piper/Kokoro

Se non si possiede uno (o più) dei plugin opzionali, è sufficiente eliminare le cartelle corrispondenti. Gli asset di base del progetto demo (istanza del gioco, widget, ecc.) non referenziano questi moduli direttamente, quindi la loro cancellazione non causerà errori di riferimento degli asset. L'interfaccia di configurazione nasconderà automaticamente qualsiasi provider la cui cartella manca.

note

Questa modularità si applica solo ai provider LLM e TTS. Speech Recognition (Runtime Speech Recognizer) e Lip Sync (Runtime MetaHuman Lip Sync) fanno parte del progetto demo di base e sono sempre richiesti.

Struttura delle cartelle dei moduli

warning

Al primo avvio, Unreal potrebbe chiedere se disabilitare eventuali plugin opzionali mancanti – fare clic su . Assicurarsi inoltre di aver eliminato la cartella Content/Modules/ corrispondente (vedere sopra).

Layout del Progetto Demo

L'interfaccia utente è a scopo dimostrativo

L'interfaccia mostrata di seguito è costruita interamente con UMG (Unreal Motion Graphics) ed è destinata esclusivamente a dimostrazione della pipeline – riconoscimento vocale → LLM → TTS → lip sync. Siete liberi di personalizzarla o sostituirla per adattarla al design visivo del vostro gioco, allo schema di controllo o alla piattaforma (VR/AR, mobile, console, ecc.). Se alcuni widget non sono necessari nel vostro caso d'uso, potete anche semplicemente nasconderli (ad esempio impostando la loro visibilità su Collapsed o Hidden).

Panoramica annotata della schermata principale del progetto demo

AreaContenuto
CentroIl personaggio MetaHuman.
Lato sinistroQuattro pulsanti di configurazione (Riconoscimento vocale, Chatbot AI, Sintesi vocale, Animazioni), descritti in dettaglio di seguito.
Centro in bassoUn pulsante Avvia registrazione. Fare clic per iniziare una conversazione vocale: il microfono viene catturato, trascritto, inviato al LLM, la risposta viene sintetizzata tramite TTS e riprodotta con lip sync, completamente a mani libere.
Centro a destraUn widget della cronologia della conversazione che mostra l'intero scambio tra voi e l'IA (messaggi utente e assistente). Include anche un campo di inserimento testo, in modo da poter digitare i messaggi direttamente senza usare il riconoscimento vocale, utile per test, accessibilità o quando il microfono non è disponibile.
suggerimento

È possibile mescolare liberamente entrambe le modalità di input nella stessa sessione – pronunciare alcuni messaggi, digitarne altri.

Pulsanti di Configurazione

I quattro pulsanti di configurazione sulla sinistra aprono pannelli dedicati per ogni parte della pipeline:

1. Configura Riconoscimento Vocale

Configura come la voce dell'utente viene catturata e trascritta:

  • Selezionare la lingua
  • Regolare i parametri di riconoscimento vocale (impostazioni del modello Whisper)
  • Configurare AEC (Acoustic Echo Cancellation)
  • Configurare VAD (Voice Activity Detection)

Schermata di configurazione del riconoscimento vocale

2. Configura Chatbot AI

Scegliere il provider LLM e configurarlo:

  • Selezionare il provider (Runtime AI Chatbot Integrator o Runtime Local LLM)
  • Per provider esterni: token di autenticazione, nome del modello, ecc.
  • Per LLM locale: selezionare un modello GGUF, impostare la dimensione del contesto e altri parametri di inferenza. È anche possibile scaricare il proprio modello GGUF a runtime direttamente dal demo (ad esempio tramite URL) e utilizzarlo immediatamente senza ricompilare il progetto.
suggerimento

La casella combinata dei provider mostra solo i provider la cui cartella del modulo plugin è presente in Content/Modules/.

Configurazione chatbot AI - Runtime AI Chatbot Integrator (LLM esterno)

Configurazione chatbot AI - Runtime Local LLM (GGUF locale)

3. Configura Sintesi Vocale

Scegliere il provider TTS e configurare voci/modelli:

  • Selezionare il provider (Runtime AI Chatbot Integrator per OpenAI/ElevenLabs, o Runtime Text To Speech per Piper/Kokoro locale)
  • Selezionare voce/modello
  • Regolare i parametri specifici del provider

Configurazione TTS - Runtime AI Chatbot Integrator (TTS esterno)

Configurazione TTS - Runtime Local Text To Speech (Piper/Kokoro locale)

4. Configura Animazioni

Controllare l'aspetto visivo del proprio personaggio AI NPC:

  • Scegliere tra 3 personaggi MetaHuman pre-scaricati (Aera, Ada, Orlando)
  • Selezionare il modello di lip sync (Standard o Realistic)
  • Selezionare il tipo di modello di lip sync - Highly Optimized, Semi-Optimized o Original (vedere Tipo di Modello)
  • Regolare la Processing Chunk Size - controlla la frequenza di esecuzione dell'inferenza del lip sync (vedere Processing Chunk Size)
  • Selezionare un'animazione inattiva da riprodurre sul MetaHuman durante la conversazione

Schermata di configurazione delle animazioni

Pre-Configurazione del Demo nell'Editor

Quando si lavora con la versione sorgente, è possibile precompilare i valori predefiniti direttamente nell'editor in modo da non doverli reinserire a ogni esecuzione:

CosaDove
Impostazioni generali (modello di lip sync, animazione inattiva, classe del personaggio, riconoscimento vocale, ecc.)Content/LipSyncSTSGameInstance
Impostazioni LLM esterno / TTS esterno (Runtime AI Chatbot Integrator)Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider
Impostazioni LLM locale (Runtime Local LLM)Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider
Impostazioni TTS locale (Runtime Text To Speech)Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider

Note Multipiattaforma

Tutti i plugin utilizzati dal demo supportano Windows, Mac, Linux, iOS, Android e piattaforme basate su Android (incluso Meta Quest), quindi il progetto demo funziona su tutte queste.

Per dispositivi meno performanti (mobile, VR standalone), si consiglia di:

  • Utilizzare il modello di lip sync Standard invece di Realistic - vedere il confronto tra modelli
  • Passare al tipo di modello Highly Optimized
  • Aumentare la Processing Chunk Size per ridurre il carico della CPU
  • Scegliere modelli LLM / TTS più piccoli

Vedere Configurazione specifica per piattaforma per ulteriori passaggi di configurazione su Android, iOS, Mac e Linux.

Portare il Proprio MetaHuman

Il progetto demo include tre personaggi MetaHuman di esempio (Aera, Ada, Orlando), ma è possibile importare il proprio MetaHuman e utilizzarlo nel demo.

📺 Tutorial video: Aggiungere un Personaggio MetaHuman Personalizzato al Progetto Demo

note

Il plugin Runtime MetaHuman Lip Sync supporta anche molti altri sistemi di personaggi oltre ai MetaHuman (personaggi basati su ARKit, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe, ecc. - vedere la Guida alla Configurazione di Personaggi Personalizzati).

Note per il Modello di Lip Sync Standard

Se si prevede di utilizzare il Modello Standard (invece di Realistic) in uno dei progetti demo, sarà necessario installare il plugin Standard Lip Sync Extension. Vedere Estensione Modello Standard per le istruzioni di installazione.

Hai Bisogno di Aiuto?

Se incontri problemi nell'impostazione o nell'esecuzione dei progetti demo, non esitare a contattarci:

Join our Discord
online · support

Per richieste di sviluppo personalizzato (ad es. estendere la demo con la propria logica, adattarla per una piattaforma specifica o una pipeline di personaggi), contattare [email protected].