Zum Hauptinhalt springen

Übersicht

Runtime MetaHuman Lip Sync Dokumentation

Runtime MetaHuman Lip Sync ist ein Plugin, das Echtzeit-, Offline- und plattformübergreifende Lippenanimation für sowohl MetaHuman- als auch benutzerdefinierte Charaktere ermöglicht. Es erlaubt Ihnen, die Lippen eines Charakters als Reaktion auf Audioeingaben aus verschiedenen Quellen zu animieren, einschließlich:

Das Plugin generiert intern Viseme (visuelle Darstellungen von Phonemen) basierend auf der Audioeingabe. Da es direkt mit Audiodaten und nicht mit Text arbeitet, unterstützt das Plugin mehrsprachige Eingaben, einschließlich, aber nicht beschränkt auf Englisch, Spanisch, Französisch, Deutsch, Japanisch, Chinesisch, Koreanisch, Russisch, Italienisch, Portugiesisch, Arabisch und Hindi. Im Grunde wird jede Sprache unterstützt, da die Lippenanimation aus Audio-Phonemen und nicht aus sprachspezifischer Textverarbeitung generiert wird.

Das Standardmodell erzeugt 14 Viseme und führt die Lippenanimation mithilfe eines vordefinierten Pose-Assets durch. Im Gegensatz dazu generieren die Realistischen Modelle (exklusiv für MetaHuman-Charaktere) 81 Änderungen der Gesichtssteuerung ohne Verwendung eines vordefinierten Pose-Assets, was zu deutlich realistischeren Gesichtsanimationen führt.

Charakterkompatibilität

Trotz seines Namens funktioniert Runtime MetaHuman Lip Sync mit einer Vielzahl von Charakteren, die über MetaHumans hinausgehen:

Beliebte kommerzielle Charaktersysteme

  • Daz Genesis 8/9 Charaktere
  • Reallusion Character Creator 3/4 (CC3/CC4) Charaktere
  • Mixamo Charaktere
  • ReadyPlayerMe Avatare

Unterstützte Animationsstandards

  • FACS-basierte Blendshape-Systeme
  • Apple ARKit Blendshape-Standard
  • Preston Blair Phonem-Sets
  • 3ds Max Phonem-Systeme
  • Jeder Charakter mit benutzerdefinierten Morph Targets für Gesichtsausdrücke

Detaillierte Anweisungen zur Verwendung des Plugins mit Nicht-MetaHuman-Charakteren finden Sie im Leitfaden zur Einrichtung benutzerdefinierter Charaktere.

Animationsvorschau

Sehen Sie sich diese kurzen Animationen an, um die Qualität der vom Plugin erzeugten Lippenanimation über verschiedene Charaktertypen und Modelle hinweg zu sehen:

Realistic Lip Sync Example
Realistisches Modell mit MetaHuman-Charakter
Standard Lip Sync Example
Standardmodell mit MetaHuman-Charakter
Custom Character Lip Sync Example
Standardmodell mit benutzerdefiniertem Charakter
Custom Character Lip Sync Example
Standardmodell mit benutzerdefiniertem Charakter

Hauptmerkmale

  • Echtzeit-Lippensynchronisation von Mikrofoneingang
  • Unterstützung für Offline-Audiobearbeitung
  • Plattformübergreifende Kompatibilität mit modellspezifischer Plattformunterstützung
  • Unterstützung für mehrere Charaktersysteme und Animationsstandards
  • Flexible Visem-Zuordnung für benutzerdefinierte Charaktere
  • Universelle Sprachunterstützung - funktioniert mit jeder gesprochenen Sprache durch Audioanalyse
  • Stimmungsbewusste Gesichtsanimation für verbesserte Ausdruckskraft
  • Konfigurierbare Ausgabetypen (volles Gesicht oder nur Mundsteuerungen)

Lippensynchronisations-Modelle

Das Plugin bietet mehrere Lippensynchronisations-Modelle für verschiedene Projektanforderungen:

Das Standard-Lippensynchronisationsmodell bietet effiziente, plattformübergreifende Leistung mit breiter Charakterkompatibilität:

  • Funktioniert mit MetaHumans und allen benutzerdefinierten Charaktertypen
  • Für Echtzeitleistung optimiert
  • Geringere Ressourcenanforderungen
  • Volle Kompatibilität mit lokaler TTS (Runtime Text To Speech Plugin)
  • Plattformunterstützung: Windows, Android, Android-basierte Plattformen (einschließlich Meta Quest)
Erweiterungs-Plugin erforderlich

Um das Standardmodell zu verwenden, müssen Sie ein zusätzliches Erweiterungs-Plugin installieren. Siehe den Abschnitt Voraussetzungen für Installationsanweisungen.

Sie können das passende Modell basierend auf Ihren Projektanforderungen hinsichtlich Leistung, Charakterkompatibilität, visueller Qualität, Zielplattform und Funktionsbedarf auswählen.

Hinweis zur TTS-Kompatibilität

Während alle Modelle verschiedene Audioeingabemethoden unterstützen, hat das reguläre Realistic Model eine eingeschränkte Kompatibilität mit lokalem TTS aufgrund von ONNX Runtime-Konflikten. Das Mood-Enabled Realistic Model ist jedoch vollständig mit lokalem TTS kompatibel. Für die Text-zu-Sprache-Funktionalität:

  • Standardmodell: Kompatibel mit allen TTS-Optionen (lokal und extern)
  • Realistic Model: Externe TTS-Dienste empfohlen (OpenAI, ElevenLabs)
  • Mood-Enabled Realistic Model: Kompatibel mit allen TTS-Optionen (lokal und extern)

Funktionsweise

Das Plugin verarbeitet Audioeingaben auf folgende Weise:

  1. Audiodaten werden als PCM-Format in Gleitkommazahlen mit angegebenen Kanälen und Abtastrate empfangen
  2. Das Plugin verarbeitet das Audio, um Gesichtssteuerungsdaten oder Viseme zu generieren, abhängig vom Modell
  3. Bei modellbasierten Stimmungen wird der emotionale Kontext auf die Gesichtsanimation angewendet
  4. Die Animationsdaten steuern die Gesichtsbewegungen des Charakters in Echtzeit

Leistungsarchitektur

Runtime MetaHuman Lip Sync verwendet ausschließlich CPU-Inferenz, um konsistente, latenzarme Lippenbewegungsergebnisse zu liefern, die für Echtzeitanwendungen geeignet sind. Standardmäßig führt das Plugin die Lippenbewegungsverarbeitung alle 10 Millisekunden durch (einstellbar - siehe Plugin-Konfiguration für alle verfügbaren Einstellungen, einschließlich Verarbeitungsblockgröße, Thread-Anzahl und anderen Leistungsparametern).

Überblick über die Modellarchitektur

Die Lippenbewegungsmodelle verwenden ein kompaktes, transformerbasiertes neuronales Netzwerk, das Audio durch Mel-Spektrogrammanalyse verarbeitet. Diese schlanke Architektur ist speziell für Echtzeitleistung mit effizienter CPU-Inferenz und minimalem Speicherbedarf konzipiert.

Warum CPU-Inferenz?

Für kleine, häufige Inferenzoperationen wie Echtzeit-Lippenbewegung bietet die CPU-Verarbeitung bessere Latenzeigenschaften als die GPU. Bei einer Batch-Größe von 1 mit 10-100 ms Inferenzintervallen übersteigt der GPU-Overhead durch PCIe-Transfers und Kernel-Starts oft die eigentliche Rechenzeit. Darüber hinaus ist die GPU in Game Engines bereits mit Rendering, Shadern und Physik ausgelastet, was Ressourcenkonflikte erzeugt, die unvorhersehbare Latenzspitzen verursachen. Das Plugin arbeitet effizient auf den meisten mittleren und höheren CPUs, ohne dedizierte Grafikhardware zu benötigen, und bietet Echtzeit-Leistung auf Desktop-, Mobil- und VR-Plattformen. Für schwächere Hardware können Sie den Model Type auf Semi-Optimized oder Highly Optimized einstellen oder die Processing Chunk Size erhöhen, um die Echtzeit-Leistung bei leicht reduzierter Reaktionsfähigkeit beizubehalten.

Schnellstart

Hier ist eine grundlegende Einrichtung, um Lippen-Sync für Ihren Charakter zu aktivieren:

  1. Für MetaHuman-Charaktere folgen Sie dem Setup Guide
  2. Für benutzerdefinierte Charaktere folgen Sie dem Custom Character Setup Guide
  3. Wählen und konfigurieren Sie Ihr bevorzugtes Lippen-Sync-Modell
  4. Richten Sie die Audio-Eingabeverarbeitung in Ihrem Blueprint ein
  5. Verbinden Sie den entsprechenden Lippen-Sync-Knoten im Animation Blueprint
  6. Spielen Sie Audio ab und sehen Sie, wie Ihr Charakter mit Emotion spricht!

Zusätzliche Ressourcen

🎥 Video-Tutorials

Vorgestellte Demo:

Realistic Model (High-Quality) Tutorials:

Standard Model Tutorials:

General Setup:

💬 Unterstützung