Übersicht

Runtime MetaHuman Lip Sync ist ein Plugin, das Echtzeit-, Offline- und plattformübergreifende Lippenanimation für sowohl MetaHuman- als auch benutzerdefinierte Charaktere ermöglicht. Es erlaubt Ihnen, die Lippen eines Charakters als Reaktion auf Audioeingaben aus verschiedenen Quellen zu animieren, einschließlich:
- Mikrofoneingang über Runtime Audio Importer's capturable sound wave
- Synthetisierte Sprache von Runtime Text To Speech oder Runtime AI Chatbot Integrator
- Gestreamte oder importierte Audiodaten in mehreren Formaten über Runtime Audio Importer
- Jegliche Audiodaten im Float-PCM-Format (ein Array von Fließkomma-Samples)
Das Plugin generiert intern Viseme (visuelle Darstellungen von Phonemen) basierend auf der Audioeingabe. Da es direkt mit Audiodaten und nicht mit Text arbeitet, unterstützt das Plugin mehrsprachige Eingaben, einschließlich, aber nicht beschränkt auf Englisch, Spanisch, Französisch, Deutsch, Japanisch, Chinesisch, Koreanisch, Russisch, Italienisch, Portugiesisch, Arabisch und Hindi. Im Grunde wird jede Sprache unterstützt, da die Lippenanimation aus Audio-Phonemen und nicht aus sprachspezifischer Textverarbeitung generiert wird.
Das Standardmodell erzeugt 14 Viseme und führt die Lippenanimation mithilfe eines vordefinierten Pose-Assets durch. Im Gegensatz dazu generieren die Realistischen Modelle (ausschließlich für MetaHuman-Charaktere) 81 Gesichtssteuerungsänderungen ohne Abhängigkeit von einem vordefinierten Pose-Asset, was zu deutlich realistischeren Gesichtsanimationen führt.
Charakterkompatibilität
Trotz seines Namens funktioniert Runtime MetaHuman Lip Sync mit einer Vielzahl von Charakteren, die über MetaHumans hinausgehen:
Beliebte kommerzielle Charaktersysteme
- Daz Genesis 8/9 Charaktere
- Reallusion Character Creator 3/4 (CC3/CC4) Charaktere
- Mixamo Charaktere
- ReadyPlayerMe Avatare
Unterstützte Animationsstandards
- FACS-basierte Blendshape-Systeme
- Apple ARKit Blendshape-Standard
- Preston Blair Phonem-Sets
- 3ds Max Phonem-Systeme
- Jeder Charakter mit benutzerdefinierten Morph-Targets für Gesichtsausdrücke
Detaillierte Anweisungen zur Verwendung des Plugins mit Nicht-MetaHuman-Charakteren finden Sie im Leitfaden zur Einrichtung benutzerdefinierter Charaktere.
Animationsvorschau
Sehen Sie sich diese kurzen Animationen an, um die Qualität der vom Plugin erzeugten Lippenanimation über verschiedene Charaktertypen und Modelle hinweg zu sehen:




Hauptmerkmale
- Echtzeit-Lippensynchronisation von Mikrofoneingang
- Unterstützung für Offline-Audiobearbeitung
- Plattformübergreifende Kompatibilität mit modellspezifischer Plattformunterstützung
- Unterstützung für mehrere Charaktersysteme und Animationsstandards
- Flexible Visem-Zuordnung für benutzerdefinierte Charaktere
- Universelle Sprachunterstützung – funktioniert mit jeder gesprochenen Sprache durch Audioanalyse
- Stimmungsbewusste Gesichtsanimation für verbesserte Ausdruckskraft
- Konfigurierbare Ausgabetypen (vollständiges Gesicht oder nur Mundsteuerungen)
Lippensynchronisations-Modelle
Das Plugin bietet mehrere Lippensynchronisations-Modelle für verschiedene Projektanforderungen:
- Standardmodell
- Realistisches Modell
- Stimmungsfähiges realistisches Modell
Das Standard-Lippensynchronisationsmodell bietet effiziente, plattformübergreifende Leistung mit breiter Charakterkompatibilität:
- Funktioniert mit MetaHumans und allen benutzerdefinierten Charaktertypen
- Für Echtzeitleistung optimiert
- Geringere Ressourcenanforderungen
- Volle Kompatibilität mit lokaler TTS (Runtime Text To Speech Plugin)
- Plattformunterstützung: Windows, Android, Android-basierte Plattformen (einschließlich Meta Quest)
Um das Standardmodell zu verwenden, müssen Sie ein zusätzliches Erweiterungs-Plugin installieren. Siehe Abschnitt Voraussetzungen für Installationsanweisungen.
Das realistische Lippensynchronisationsmodell bietet eine verbesserte visuelle Qualität speziell für MetaHuman-Charaktere:
- Kompatibel mit MetaHuman- und ARKit-basierten Charakteren mit erweiterter Gesichtsanimation (81 Gesichtssteuerungen)
- Höhere visuelle Qualität mit natürlicheren Mundbewegungen
- Etwas höhere Leistungsanforderungen
- Eingeschränkte lokale TTS-Unterstützung (externe TTS-Dienste empfohlen)
- Ideal für filmische Erfahrungen und Nahaufnahmen von Charakterinteraktionen
- Plattformunterstützung: Windows, Mac, iOS, Linux, Android, Android-basierte Plattformen (einschließlich Meta Quest)
- Drei Optimierungsstufen: Original, Teiloptimiert und Hochoptimiert
- Konfigurierbare Morph-Target-Sets (siehe Morph Target Set Selection)
Das realistische Modell ist im Haupt-Plugin enthalten und erfordert keine zusätzlichen Erweiterungen.
Das stimmungsfähige realistische Modell bietet emotionsbewusste Gesichtsanimation für MetaHuman-Charaktere:
- Kompatibel mit MetaHuman- und ARKit-basierten Charakteren mit stimmungsreaktiver Gesichtsanimation
- 12 verschiedene Stimmungstypen (Neutral, Glücklich, Traurig, Selbstbewusst usw.)
- Konfigurierbare Stimmungsintensität (0,0 bis 1,0)
- Einstellbare Vorausschauzeit für verbesserte Synchronisation (20 ms bis 200 ms)
- Wählbare Ausgabetypen: Volles Gesicht oder nur Mundsteuerungen
- Streaming-Audiobearbeitung für Echtzeitanwendungen
- Konfigurierbare Morph-Target-Sets (siehe Morph Target Set Selection)
- Plattformunterstützung: Windows, Mac, iOS, Linux, Android, Android-basierte Plattformen (einschließlich Meta Quest)
Das stimmungsfähige Modell enthält erweiterte Funktionen wie konfigurierbare Vorausschauzeit und selektive Steuerungsausgabe, was es ideal für Anwendungen macht, die emotionale Ausdruckskontrolle erfordern.
Sie können das passende Modell basierend auf Ihren Projektanforderungen für Leistung, Charakterkompatibilität, visuelle Qualität, Zielplattform und Funktionsbedarf auswählen.
Während alle Modelle verschiedene Audioeingabemethoden unterstützen, hat das reguläre realistische Modell aufgrund von ONNX-Laufzeitkonflikten eine eingeschränkte Kompatibilität mit lokaler TTS. Das stimmungsfähige realistische Modell ist jedoch vollständig mit lokaler TTS kompatibel. Für Text-zu-Sprache-Funktionalität:
- Standardmodell: Kompatibel mit allen TTS-Optionen (lokal und extern)
- Realistisches Modell: Externe TTS-Dienste empfohlen (OpenAI, ElevenLabs)
- Stimmungsfähiges realistisches Modell: Kompatibel mit allen TTS-Optionen (lokal und extern)
Funktionsweise
Das Plugin verarbeitet Audioeingaben auf folgende Weise:
- Audiodaten werden als PCM-Format in Gleitkommazahlen mit angegebenen Kanälen und Abtastrate empfangen
- Das Plugin verarbeitet das Audio, um Gesichtssteuerungsdaten oder Viseme je nach Modell zu generieren
- Für stimmungsfähige Modelle wird emotionaler Kontext auf die Gesichtsanimation angewendet
- Die Animationsdaten steuern die Gesichtsbewegungen des Charakters in Echtzeit
Leistungsarchitektur
Runtime MetaHuman Lip Sync verwendet ausschließlich CPU-Inferenz, um konsistente, latenzarme Lippensynchronisationsergebnisse zu liefern, die für Echtzeitanwendungen geeignet sind. Standardmäßig führt das Plugin die Lippensynchronisationsverarbeitung alle 10 Millisekunden durch (einstellbar – siehe Plugin-Konfiguration für alle verfügbaren Einstellungen einschließlich Processing Chunk Size, Thread-Anzahl und andere Leistungsparameter).
Modellarchitektur-Überblick
Die Lippensynchronisationsmodelle verwenden ein kompaktes transformerbasiertes neuronales Netzwerk, das Audio durch Mel-Spektrogrammanalyse verarbeitet. Diese schlanke Architektur ist speziell für Echtzeitleistung mit effizienter CPU-Inferenz und minimalem Speicherbedarf konzipiert.
Warum CPU-Inferenz?
Für kleine, häufige Inferenzoperationen wie Echtzeit-Lippensynchronisation bietet die CPU-Verarbeitung bessere Latenzeigenschaften als die GPU. Bei einer Batch-Größe von 1 mit 10-100 ms Inferenzintervallen übersteigt der GPU-Overhead durch PCIe-Transfers und Kernel-Starts oft die eigentliche Rechenzeit. Darüber hinaus ist die GPU in Spiel-Engines bereits mit Rendering, Shadern und Physik ausgelastet, was Ressourcenkonflikte verursacht, die unvorhersehbare Latenzspitzen einführen.
Hardware-Kompatibilität
Das Plugin arbeitet effizient auf den meisten mittleren und höheren CPUs, ohne dedizierte Grafikhardware zu benötigen, und bietet Echtzeitleistung über Desktop-, Mobile- und VR-Plattformen hinweg. Für schwächere Hardware können Sie den Model Type auf Semi-Optimized oder Highly Optimized einstellen oder die Processing Chunk Size erhöhen, um die Echtzeitleistung bei leicht reduzierter Reaktionsfähigkeit aufrechtzuerhalten.
Schnellstart
Hier ist eine grundlegende Einrichtung, um Lippensynchronisation für Ihren Charakter zu aktivieren:
- Für MetaHuman-Charaktere folgen Sie dem Setup Guide
- Für benutzerdefinierte Charaktere folgen Sie dem Custom Character Setup Guide
- Wählen und konfigurieren Sie Ihr bevorzugtes Lippensynchronisationsmodell
- Richten Sie die Audioeingabeverarbeitung in Ihrem Blueprint ein
- Verbinden Sie den entsprechenden Lippensynchronisations-Knoten im Animation Blueprint
- Spielen Sie Audio ab und sehen Sie, wie Ihr Charakter mit Emotion spricht!
Zusätzliche Ressourcen
📦 Downloads & Links
- Auf Fab erhältlich
- Produkt-Website
- Demo herunterladen (Windows)
- Demo-Quelldateien herunterladen (UE 5.6) – Erfordert dieses Plugin + Runtime Audio Importer, optional: Text To Speech / AI Chatbot. Das Standardmodell erfordert ein kleines Erweiterungs-Plugin (siehe hier)
🎥 Video-Tutorials
Vorgestellte Demo:
Realistisches Modell (Hochqualitativ) Tutorials:
- Hochqualitative Lippensynchronisation mit Stimmungskontrolle & lokaler TTS ⭐ NEU
- Hochqualitative Lippensynchronisation mit ElevenLabs & OpenAI TTS
- Hochqualitative Live-Mikrofon-Lippensynchronisation
Standardmodell Tutorials:
- Standard Live-Mikrofon-Lippensynchronisation
- Standard-Lippensynchronisation mit lokaler Text-zu-Sprache
- Standard-Lippensynchronisation mit ElevenLabs & OpenAI TTS
Allgemeine Einrichtung:
💬 Support
- Discord-Support-Server
- Benutzerdefinierte Entwicklung: [email protected] (maßgeschneiderte Lösungen für Teams & Organisationen)