Übersicht

Runtime MetaHuman Lip Sync ist ein Plugin, das Echtzeit-, Offline- und plattformübergreifendes Lippen-Synchronisieren sowohl für MetaHuman- als auch für benutzerdefinierte Charaktere ermöglicht. Es erlaubt Ihnen, die Lippen einer Figur als Reaktion auf Audioeingaben aus verschiedenen Quellen zu animieren, darunter:
- Mikrofoneingabe über Runtime Audio Importer's erfassbare Schallwelle
- Synthetisierte Sprache von Runtime Text To Speech oder Runtime AI Chatbot Integrator
- Gestreamte oder importierte Audiodaten in mehreren Formaten über Runtime Audio Importer
- Beliebige Audiodaten im Float-PCM-Format (ein Array von Gleitkomma-Abtastwerten)
Das Plugin generiert intern Viseme (visuelle Darstellungen von Phonemen) basierend auf der Audioeingabe. Da es direkt mit Audiodaten und nicht mit Text arbeitet, unterstützt das Plugin mehrsprachige Eingaben, einschließlich, aber nicht beschränkt auf Englisch, Spanisch, Französisch, Deutsch, Japanisch, Chinesisch, Koreanisch, Russisch, Italienisch, Portugiesisch, Arabisch und Hindi. Praktisch jede Sprache wird unterstützt, da die Lippensynchronisation aus Audio-Phonemen und nicht aus sprachspezifischer Textverarbeitung generiert wird.
Das Standardmodell erzeugt 14 Viseme und führt die Lippen-Synchronisationsanimation mithilfe eines vordefinierten Pose-Assets durch. Im Gegensatz dazu generieren die realistischen Modelle (exklusiv für MetaHuman- und ARKit-basierte Charaktere) 81 Gesichtssteuerungsänderungen, ohne auf ein vordefiniertes Pose-Asset angewiesen zu sein, was zu deutlich realistischeren Gesichtsanimationen führt.
Figurenkompatibilität
Trotz seines Namens funktioniert Runtime MetaHuman Lip Sync mit einer Vielzahl von Charakteren, die über MetaHumans hinausgehen:
Beliebte kommerzielle Charaktersysteme
- Daz Genesis 8/9-Charaktere
- Reallusion Character Creator 3/4 (CC3/CC4)-Charaktere
- Mixamo-Charaktere
- ReadyPlayerMe-Avatare
Unterstützung für Animationsstandards
- FACS-basierte Blendshape-Systeme
- Apple ARKit-Blendshape-Standard
- Preston-Blair-Phonemsets
- 3ds-Max-Phonemsysteme
- Jeder Charakter mit benutzerdefinierten Morph-Targets für Gesichtsausdrücke
Für Nicht-MetaHuman-Charaktere, die das Standardmodell verwenden, siehe die Anleitung zur Einrichtung benutzerdefinierter Charaktere. Für ARKit-basierte Charaktere, die die realistischen Modelle verwenden, siehe Auswahl des Morph-Ziel-Sets.
Animationsvorschau
Sehen Sie sich diese kurzen Animationen an, um die Qualität der Lippen-Synchronisations-Animation zu beurteilen, die das Plugin für verschiedene Charaktertypen und Modelle erzeugt:
Hauptmerkmale
- Echtzeit-Lippensynchronisation über Mikrofoneingabe
- Unterstützung für Offline-Audioverarbeitung
- Plattformübergreifende Kompatibilität mit modellspezifischer Plattformunterstützung
- Unterstützung für mehrere Charaktersysteme und Animationsstandards
- Flexibles Visem-Mapping für benutzerdefinierte Charaktere
- Universelle Sprachunterstützung – funktioniert mit jeder gesprochenen Sprache durch Audioanalyse
- Stimmungsbewusste Gesichtsanimation für verbesserte Ausdruckskraft
- Konfigurierbare Ausgabetypen (Steuerung des gesamten Gesichts oder nur des Mundbereichs)
- Optionale Augenanimationshilfen für Lidschläge und Blickverfolgung
Lippensynchronisationsmodelle
Das Plugin bietet mehrere Lippen-Synchronisationsmodelle, um unterschiedlichen Projektanforderungen gerecht zu werden:
- Standardmodell
- Realistisches Modell
- Stimmungsgesteuertes realistisches Modell
Das Standard-Lippensynchronisationsmodell bietet eine effiziente, plattformübergreifende Leistung mit breiter Charakterkompatibilität:
- Funktioniert mit MetaHumans und allen benutzerdefinierten Charaktertypen
- Optimiert für Echtzeitleistung
- Geringere Ressourcenanforderungen
- Plattformunterstützung: Windows, Android, Android-basierte Plattformen (einschließlich Meta Quest)
Um das Standardmodell zu verwenden, müssen Sie ein zusätzliches Erweiterungs-Plugin installieren. Siehe den Abschnitt „Voraussetzungen“ für Installationsanweisungen.
Das realistische Lippen-Synchronisationsmodell liefert eine verbesserte visuelle Wiedergabetreue speziell für MetaHuman-Charaktere:
- Kompatibel mit MetaHuman- und ARKit-basierten Charakteren mit erweiterter Gesichtsanimation (81 Gesichtssteuerungen)
- Höhere visuelle Qualität mit natürlicheren Mundbewegungen
- Etwas höhere Leistungsanforderungen
- Streaming-Audioverarbeitung für Echtzeitanwendungen
- Ideal für filmische Erlebnisse und Nahaufnahmen von Charakterinteraktionen
- Drei Optimierungsstufen: Original, Semi-Optimiert und Hochoptimiert
- Konfigurierbare Morph-Target-Sets (siehe Auswahl des Morph-Target-Sets)
- Plattformunterstützung: Windows, Mac, iOS, Linux, Android, Android-basierte Plattformen (einschließlich Meta Quest)
Das realistische Modell ist im Hauptplugin enthalten und erfordert keine zusätzlichen Erweiterungen zur Nutzung.
Das stimmungsaktivierte realistische Modell bietet emotionsbewusste Gesichtsanimationen für MetaHuman-Charaktere:
- Kompatibel mit MetaHuman- und ARKit-basierten Charakteren mit stimmungsabhängiger Gesichtsanimation (81 Gesichtssteuerungen)
- 12 verschiedene Stimmungstypen (Neutral, Fröhlich, Traurig, Selbstbewusst usw.)
- Konfigurierbare Stimmungsintensität (0,0 bis 1,0)
- Einstellbare Vorausschauzeit für verbesserte Synchronisation (20 ms bis 200 ms)
- Wählbare Ausgabetypen: Steuerung für das gesamte Gesicht oder nur für den Mund
- Streaming-Audioverarbeitung für Echtzeitanwendungen
- Konfigurierbare Morph-Target-Sets (siehe Auswahl des Morph-Target-Sets)
- Plattformunterstützung: Windows, Mac, iOS, Linux, Android, Android-basierte Plattformen (einschließlich Meta Quest)
Das stimmungsfähige realistische Modell ist im Haupt-Plugin enthalten und erfordert keine zusätzlichen Erweiterungen zur Nutzung.
Sie können das passende Modell basierend auf Ihren Projektanforderungen in Bezug auf Leistung, Charakterkompatibilität, visuelle Qualität, Zielplattform und Funktionsanforderungen auswählen.
So funktioniert es
Das Plugin verarbeitet Audioeingaben auf folgende Weise:
- Audiodaten werden als Float PCM-Format mit angegebenen Kanälen und Abtastrate empfangen
- Das Plugin verarbeitet die Audiodaten, um Gesichtssteuerungsdaten oder Viseme zu generieren, abhängig vom Modell
- Bei stimmungsfähigen Modellen wird emotionaler Kontext auf die Gesichtsanimation angewendet
- Die Animationsdaten steuern die Gesichtsbewegungen der Figur in Echtzeit
Leistungsarchitektur
Runtime MetaHuman Lip Sync verwendet ausschließlich CPU-Inferenz, um konsistente Lip-Sync-Ergebnisse mit niedriger Latenz zu liefern, die für Echtzeitanwendungen geeignet sind. Standardmäßig führt das Plugin die Lip-Sync-Verarbeitung alle 10 Millisekunden durch (anpassbar – siehe Plugin-Konfiguration für alle verfügbaren Einstellungen, einschließlich Verarbeitungs-Chunk-Größe, Thread-Anzahl und andere Leistungsparameter).
Übersicht über die Modellarchitektur
Die Lippen-Synchronisationsmodelle verwenden ein kompaktes, auf Transformatoren basierendes neuronales Netzwerk, das Audio durch Mel-Spektrogramm-Analyse verarbeitet. Diese leichte Architektur ist speziell für Echtzeitleistung mit effizienter CPU-Inferenz und minimalem Speicherverbrauch ausgelegt.
Warum CPU-Inferenz?
Bei kleinen, häufigen Inferenzoperationen wie Echtzeit-Lippensynchronisation bietet die CPU-Verarbeitung bessere Latenzeigenschaften als die GPU. Bei einer Batch-Größe von 1 mit Inferenzintervallen von 10–100 ms übersteigt der GPU-Overhead durch PCIe-Transfers und Kernel-Starts oft die tatsächliche Rechenzeit. Zudem ist die GPU in Spiel-Engines bereits durch Rendering, Shader und Physik ausgelastet, was zu Ressourcenkonflikten führt, die unvorhersehbare Latenzspitzen verursachen.
Hardware-Kompatibilität
Das Plugin arbeitet effizient auf den meisten Mittelklasse- und höheren CPUs, ohne dass dedizierte Grafikhardware erforderlich ist, und bietet Echtzeitleistung auf Desktop-, Mobil- und VR-Plattformen. Für schwächere Hardware können Sie den Modelltyp auf Semi-Optimiert oder Hochoptimiert einstellen oder die Verarbeitungs-Chunk-Größe erhöhen, um die Echtzeitleistung bei leicht reduzierter Reaktionsfähigkeit beizubehalten.
Schnellstart
Hier ist eine grundlegende Einrichtung zur Aktivierung von Lippen-Synchronisation für Ihren Charakter:
- Für MetaHuman-Charaktere folgen Sie der Einrichtungsanleitung
- Für benutzerdefinierte Charaktere folgen Sie der Einrichtungsanleitung für benutzerdefinierte Charaktere
- Wählen und konfigurieren Sie Ihr bevorzugtes Lippen-Synchronisationsmodell
- Richten Sie die Audioeingabeverarbeitung in Ihrem Blueprint ein
- Verbinden Sie den entsprechenden Lippen-Synchronisationsknoten im Animations-Blueprint
- Spielen Sie Audio ab und sehen Sie, wie sich Ihr Charakter synchron animiert
Optionale Augenanimation
Das Plugin enthält außerdem optionale Helfer für automatisches Blinzeln und Blickverfolgung bei MetaHumans. Diese sind unabhängig von der Lippensynchronisation und können eigenständig oder darüber geschichtet verwendet werden. Siehe Augenanimationshelfer.
Zusätzliche Ressourcen
📦 Downloads & Links
Demoprojekte:
Zwei einsatzbereite Demoprojekte sind verfügbar – siehe die spezielle Seite Demoprojekte für vollständige Details, Downloads und Anleitungen:
- Kompletter KI-gesteuerter Konversations-NPC-Workflow - Spracherkennung + LLM-Chatbot + TTS + Lippen-Synchronisation
- Grundlegende Lippen-Synchronisations-Demo - Mikrofoneingabe, Audiodateien, TTS
Beide Demos sind plattformübergreifend (Windows, Mac, Linux, iOS, Android, Meta Quest) und werden als gepackte Builds sowie als vollständige UE 5.6+-Quellprojekte ausgeliefert.
🎥 Video-Tutorials
Vorgestellte Demos:
Tutorials für realistische Modelle (hochwertig):
- Hochwertiger Lippen-Sync aus Audiodatei/Puffer
- Hochwertiger Lippen-Sync mit Stimmungskontrolle & lokaler TTS
- Hochwertiger Lippen-Sync mit ElevenLabs & OpenAI TTS
- Hochwertiger Live-Mikrofon-Lippen-Sync
- Hochwertiger Lippen-Sync für ARKit-Charaktere
Standard-Modell-Tutorials:
- Standard Live-Mikrofon-Lippensynchronisation
- Standard-Lippensynchronisation mit lokaler Text-zu-Sprache
- Standard-Lippensynchronisation mit ElevenLabs & OpenAI TTS
Allgemeine Einrichtung:
- Hinzufügen eines benutzerdefinierten MetaHuman-Charakters zum Demo-Projekt
- Tutorial-Video zur Einrichtung
- MetaHuman Augenzwinkern & Kameraverfolgung
- Durchgang durch das Demoprojekt (älter)
💬 Support
- Individuelle Entwicklung: [email protected] (maßgeschneiderte Lösungen für Teams & Organisationen)