Demoprojekte
Um Ihnen den schnellen Einstieg in Runtime MetaHuman Lip Sync zu ermöglichen, stehen zwei einsatzbereite Demoprojekte zur Verfügung. Beide wurden mit Unreal Engine 5.6 erstellt (und werden ab UE 5.7+ unterstützt), sind ausschließlich Blueprint-basiert und laufen plattformübergreifend auf Windows, Mac, Linux, iOS, Android sowie Android-basierten Plattformen (einschließlich Meta Quest).
Verfügbare Demoprojekte
- KI-Konversations-NPC
- Basic Lip Sync Demo
Ein vollständiger KI-NPC-Konversationsworkflow, der Spracherkennung, einen KI-Chatbot (LLM), Text-zu-Sprache und Audiowiedergabe mit Echtzeit-Lippensynchronisation kombiniert – alles zusammen in einem einzigen Projekt.
Pipeline-Übersicht
🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback
Vorgestelltes Video
Downloads
Erforderliche & Optionale Plugins
Das Demo-Projekt ist modular – Sie benötigen nur die Plugins für die Anbieter, die Sie verwenden möchten.
| Plugin | Zweck | Erforderlich? |
|---|---|---|
| Runtime MetaHuman Lip Sync | Lippensynchronisation-Animation | ✅ Immer |
| Runtime Audio Importer | Audioaufnahme & -verarbeitung | ✅ Immer |
| Runtime Speech Recognizer | Offline-Spracherkennung (whisper.cpp) | ✅ Immer |
| Runtime AI Chatbot Integrator | Externe LLMs (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) und/oder Externe TTS (OpenAI, ElevenLabs) | 🔶 Optional* |
| Runtime Local LLM | Lokale LLM-Inferenz über llama.cpp (Llama, Mistral, Gemma, usw., GGUF-Modelle) | 🔶 Optional* |
| Runtime Text To Speech | Lokale TTS über Piper und Kokoro | 🔶 Optional* |
* Sie benötigen mindestens einen LLM-Anbieter und mindestens einen TTS-Anbieter. Kombinieren Sie frei (z. B. lokale LLM + ElevenLabs TTS oder OpenAI LLM + lokale TTS).
Modulare Architektur
Das Demo-Projekt ist vollständig modular. Im Content-Ordner finden Sie einen Modules-Ordner, der drei Unterordner enthält:
Content/
└── Modules/
├── RuntimeAIChatbotIntegrator/ ← External LLMs and/or external TTS
├── RuntimeLocalLLM/ ← Local LLM via llama.cpp
└── RuntimeTextToSpeech/ ← Local TTS via Piper/Kokoro
Wenn Sie eines (oder mehrere) der optionalen Plugins nicht erworben haben, löschen Sie einfach den/die entsprechenden Ordner. Die Basis-Assets des Demoprojekts (Game Instance, Widgets usw.) verweisen nicht direkt auf diese Module, sodass das Löschen keine Asset-Referenzfehler verursacht. Die Konfigurations-UI blendet automatisch jeden Anbieter aus, dessen Ordner fehlt.
Diese Modularität gilt nur für LLM- und TTS-Anbieter. Speech Recognition (Runtime Speech Recognizer) und Lip Sync (Runtime MetaHuman Lip Sync) sind Teil des Basis-Demoprojekts und werden immer benötigt.

Beim ersten Start fragt Unreal möglicherweise, ob fehlende optionale Plugins deaktiviert werden sollen – klicken Sie auf Yes. Stellen Sie sicher, dass Sie auch den entsprechenden Content/Modules/-Ordner gelöscht haben (siehe oben).
Demo-Projektaufbau
Die unten gezeigte Benutzeroberfläche wurde vollständig mit UMG (Unreal Motion Graphics) erstellt und dient ausschließlich der Demonstration der Pipeline – Spracherkennung → LLM → TTS → Lip Sync. Sie können sie nach Belieben umgestalten oder ersetzen, um sie an das visuelle Design Ihres Spiels, Ihr Steuerungsschema oder Ihre Plattform (VR/AR, Mobile, Konsole usw.) anzupassen. Falls bestimmte Widgets in Ihrem Anwendungsfall nicht benötigt werden, können Sie sie auch einfach ausblenden (z. B. Sichtbarkeit auf Collapsed oder Hidden setzen).

| Bereich | Was sich dort befindet |
|---|---|
| Mitte | Der MetaHuman-Charakter. |
| Linke Seite | Vier Konfigurationsschaltflächen (Spracherkennung, KI-Chatbot, Text-to-Speech, Animationen), die unten detailliert beschrieben werden. |
| Untere Mitte | Eine Start Recording-Schaltfläche. Klicken Sie darauf, um eine Sprachunterhaltung zu beginnen: Ihr Mikrofon wird erfasst, transkribiert, an das LLM gesendet, die Antwort wird per TTS synthetisiert und mit Lip Sync vollständig freihändig abgespielt. |
| Rechte Mitte | Ein Gesprächsverlaufs-Widget, das den gesamten Dialog zwischen Ihnen und der KI (sowohl Benutzer- als auch Assistentennachrichten) anzeigt. Es enthält auch ein Texteingabefeld, sodass Sie Nachrichten direkt ohne Spracherkennung eingeben können – nützlich zum Testen, für Barrierefreiheit oder wenn kein Mikrofon verfügbar ist. |
Sie können beide Eingabemodi in derselben Sitzung mischen – sprechen Sie einige Nachrichten, tippen Sie andere.
Konfigurationsschaltflächen
Die vier Konfigurationsschaltflächen auf der linken Seite öffnen dedizierte Panels für jeden Teil der Pipeline:
1. Spracherkennung konfigurieren
Konfigurieren Sie, wie die Stimme des Benutzers erfasst und transkribiert wird:
- Wählen Sie die Sprache aus
- Passen Sie die Parameter der Spracherkennung an (Whisper-Modelleinstellungen)
- Konfigurieren Sie AEC (Acoustic Echo Cancellation)
- Konfigurieren Sie VAD (Voice Activity Detection)

2. KI-Chatbot konfigurieren
Wählen Sie Ihren LLM-Anbieter und konfigurieren Sie ihn:
- Wählen Sie den Anbieter (Runtime AI Chatbot Integrator oder Runtime Local LLM)
- Für externe Anbieter: Auth Token, Modellname usw.
- Für lokales LLM: Wählen Sie ein GGUF-Modell, legen Sie die Kontextgröße und andere Inferenzparameter fest. Sie können auch Ihr eigenes GGUF-Modell zur Laufzeit herunterladen (z. B. per URL) und es sofort verwenden, ohne das Projekt neu zu erstellen.
Die Anbieter-Combobox zeigt nur Anbieter an, deren Plugin-Modulordner in Content/Modules/ vorhanden ist.


3. Text-to-Speech konfigurieren
Wählen Sie Ihren TTS-Anbieter und konfigurieren Sie Stimmen/Modelle:
- Wählen Sie den Anbieter (Runtime AI Chatbot Integrator für OpenAI/ElevenLabs oder Runtime Text To Speech für lokales Piper/Kokoro)
- Wählen Sie Stimme/Modell
- Passen Sie anbieterspezifische Parameter an


4. Animationen konfigurieren
Steuern Sie die visuelle Darstellung Ihres KI-NPCs:
- Wählen Sie zwischen 3 vorab heruntergeladenen MetaHuman-Charakteren (Aera, Ada, Orlando)
- Wählen Sie das Lip-Sync-Modell (Standard oder Realistic)
- Wählen Sie den Lip-Sync-Modelltyp – Highly Optimized, Semi-Optimized oder Original (siehe Model Type)
- Passen Sie die Processing Chunk Size an – steuert, wie oft die Lip-Sync-Inferenz ausgeführt wird (siehe Processing Chunk Size)
- Wählen Sie eine Idle-Animation aus, die während des Gesprächs auf dem MetaHuman abgespielt wird

Vorkonfiguration der Demo im Editor
Wenn Sie mit der Quellversion arbeiten, können Sie Standardwerte direkt im Editor vorausfüllen, damit die Werte nicht bei jedem Durchlauf erneut eingegeben werden müssen:
| Was | Wo |
|---|---|
| Allgemeine Einstellungen (Lip-Sync-Modell, Idle-Animation, Charakterklasse, Spracherkennung usw.) | Content/LipSyncSTSGameInstance |
| Externes LLM / Externes TTS -Einstellungen (Runtime AI Chatbot Integrator) | Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider |
| Lokales LLM -Einstellungen (Runtime Local LLM) | Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider |
| Lokales TTS -Einstellungen (Runtime Text To Speech) | Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider |
Plattformübergreifende Hinweise
Alle von der Demo verwendeten Plugins unterstützen Windows, Mac, Linux, iOS, Android und Android-basierte Plattformen (einschließlich Meta Quest), sodass das Demoprojekt auch auf all diesen funktioniert.
Für schwächere Geräte (mobil, Standalone-VR) können Sie Folgendes in Betracht ziehen:
- Verwenden Sie das Standard-Lip-Sync-Modell anstelle von Realistic – siehe Modellvergleich
- Wechseln Sie zum Modelltyp Highly Optimized
- Erhöhen Sie die Processing Chunk Size, um die CPU-Last zu reduzieren
- Wählen Sie kleinere LLM-/TTS-Modelle
Weitere Einrichtungsschritte für Android, iOS, Mac und Linux finden Sie unter Plattformspezifische Konfiguration.
Eigene MetaHuman-Charaktere einbringen
Das Demoprojekt wird mit drei Beispiel-MetaHuman-Charakteren (Aera, Ada, Orlando) ausgeliefert, aber Sie können Ihren eigenen MetaHuman importieren und in der Demo verwenden.
📺 Video-Tutorial: Hinzufügen eines eigenen MetaHuman-Charakters zum Demoprojekt
Das Runtime MetaHuman Lip Sync-Plugin selbst unterstützt viele andere Charaktersysteme über MetaHumans hinaus (ARKit-basierte Charaktere, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe usw. – siehe Anleitung für benutzerdefinierte Charaktere).
Ein einfacheres Demoprojekt, das sich rein auf die Lip-Sync-Funktion selbst konzentriert, ohne den vollständigen KI-Konversationsworkflow. Geeignet, wenn Sie nur Lip Sync mit verschiedenen Audioquellen in Aktion sehen möchten.
Vorgestelltes Video
Downloads
Was enthalten ist
Diese Demo zeigt die grundlegenden Lip-Sync-Workflows:
- Mikrofoneingabe – Echtzeit-Lip-Sync von Live-Audio
- Audiowiedergabe – Lip-Sync von importierten Audiodateien
- Text-to-Speech – Lip-Sync gesteuert durch synthetisierte Sprache
Erforderliche und optionale Plugins
| Plugin | Zweck | Erforderlich? |
|---|---|---|
| Runtime MetaHuman Lip Sync | Lip-Sync-Animation | ✅ Erforderlich |
| Runtime Audio Importer | Audioimport & -erfassung | ✅ Erforderlich |
| Runtime Text To Speech | Lokales TTS für die TTS-Demoszene | 🔶 Optional |
| Runtime AI Chatbot Integrator | Externe TTS-Anbieter (OpenAI, ElevenLabs) | 🔶 Optional |
Hinweise zum Standard-Lip-Sync-Modell
Wenn Sie vorhaben, das Standard-Modell (anstelle von Realistic) in einem der Demoprojekte zu verwenden, müssen Sie das Standard Lip Sync Extension Plugin installieren. Siehe Standard Model Extension für Installationsanweisungen.
Brauchen Sie Hilfe?
Wenn Sie auf Probleme beim Einrichten oder Ausführen der Demoprojekte stoßen, können Sie sich gerne melden:
Für individuelle Entwicklungsanfragen (z. B. Erweiterung der Demo um eigene Logik, Anpassung an eine bestimmte Plattform oder Charakter-Pipeline) kontaktieren Sie [email protected].