Audio-Verarbeitungsleitfaden

Diese Anleitung beschreibt, wie Sie verschiedene Audioeingabemethoden einrichten, um Audiodaten an Ihre Lippen-Synchronisations-Generatoren zu übermitteln. Stellen Sie sicher, dass Sie die Einrichtungsanleitung abgeschlossen haben, bevor Sie fortfahren.

Audio-Eingabeverarbeitung

Sie müssen eine Methode zur Verarbeitung von Audioeingaben einrichten. Es gibt mehrere Möglichkeiten, dies zu tun, abhängig von Ihrer Audioquelle.

Dieser Ansatz führt die Lippensynchronisation in Echtzeit durch, während Sie ins Mikrofon sprechen:

Standardmodell
Realistisches Modell
Stimmungsgesteuertes realistisches Modell

Erstellen Sie eine aufnehmbare Schallwelle mit dem Runtime Audio Importer.
- Für Linux mit Pixel Streaming verwenden Sie stattdessen Pixel Streaming Capturable Sound Wave.
Bevor Sie mit der Audioaufnahme beginnen, binden Sie sich an den OnPopulateAudioData-Delegaten
Rufen Sie in der gebundenen Funktion ProcessAudioData von Ihrem Runtime Viseme Generator auf
Starten Sie die Audioaufnahme über das Mikrofon

Kopierbare Knoten.

Lip Sync During Audio Capture

Das realistische Modell verwendet denselben Audioverarbeitungs-Workflow wie das Standardmodell, jedoch mit der Variable RealisticLipSyncGenerator anstelle von VisemeGenerator.

Kopierbare Nodes.

Realistic Lip Sync During Audio Capture

Das stimmungsfähige Modell verwendet denselben Audioverarbeitungs-Workflow, jedoch mit der Variable MoodMetaHumanLipSyncGenerator und zusätzlichen Konfigurationsmöglichkeiten für die Stimmung.

Kopierbare Knoten.

Mood-Enabled Lip Sync During Audio Capture

Dieser Ansatz erfasst Audio von einem Mikrofon und gibt es dann mit Lippen-Synchronisation wieder:

Standardmodell
Realistisches Modell
Stimmungsgesteuertes realistisches Modell

Erstellen Sie eine aufnehmbare Schallwelle mit dem Runtime Audio Importer.
- Für Linux mit Pixel Streaming verwenden Sie stattdessen Pixel Streaming Capturable Sound Wave.
Audioaufnahme vom Mikrofon starten
Bevor die aufnehmbare Schallwelle abgespielt wird, an deren OnGeneratePCMData-Delegate binden
In der gebundenen Funktion ProcessAudioData von Ihrem Runtime Viseme Generator aufrufen

Kopierbare Knoten.

Lip Sync During Audio Playback

Das realistische Modell verwendet denselben Audioverarbeitungs-Workflow wie das Standardmodell, jedoch mit der Variable RealisticLipSyncGenerator anstelle von VisemeGenerator.

Kopierbare Nodes.

Realistic Lip Sync During Audio Playback

Das stimmungsfähige Modell verwendet denselben Audioverarbeitungs-Workflow, jedoch mit der Variable MoodMetaHumanLipSyncGenerator und zusätzlichen Konfigurationsmöglichkeiten für Stimmungen.

Kopierbare Knoten.

Mood-Enabled Lip Sync During Audio Playback

Regulär
Streaming

Dieser Ansatz synthetisiert Sprache aus Text mittels lokaler TTS und führt Lippensynchronisation durch:

Standardmodell
Realistisches Modell
Stimmungsgesteuertes realistisches Modell

Verwenden Sie Runtime Text To Speech, um Sprache aus Text zu generieren
Verwenden Sie Runtime Audio Importer, um die synthetisierte Audio-Datei zu importieren
Bevor Sie die importierte Schallwelle abspielen, binden Sie sich an deren OnGeneratePCMData-Delegaten
Rufen Sie in der gebundenen Funktion ProcessAudioData von Ihrem Runtime Viseme Generator auf

Kopierbare Knoten.

Lip Sync From Synthesized Speech

Das realistische Modell verwendet denselben Audioverarbeitungs-Workflow wie das Standardmodell, jedoch mit der Variable RealisticLipSyncGenerator anstelle von VisemeGenerator.

Kopierbare Nodes.

Mood-Enabled Lip Sync From Local TTS

Das stimmungsfähige Modell verwendet denselben Audioverarbeitungs-Workflow, jedoch mit der Variable MoodMetaHumanLipSyncGenerator und zusätzlichen Konfigurationsmöglichkeiten für Stimmungen.

Kopierbare Nodes.

Mood-Enabled Lip Sync From Local TTS

Dieser Ansatz verwendet eine Streaming-Text-zu-Sprache-Synthese mit Echtzeit-Lippensynchronisation:

Standardmodell
Realistisches Modell
Stimmungsgesteuertes realistisches Modell

Verwenden Sie Runtime Text To Speech, um Streaming-Sprache aus Text zu generieren
Verwenden Sie Runtime Audio Importer, um die synthetisierte Audio-Datei zu importieren
Bevor Sie die Streaming-Sound-Wave abspielen, binden Sie an deren OnGeneratePCMData-Delegate
Rufen Sie in der gebundenen Funktion ProcessAudioData von Ihrem Runtime Viseme Generator auf

Kopierbare Knoten.

Lip Sync From Synthesized Streaming Speech

Das realistische Modell verwendet denselben Audioverarbeitungs-Workflow wie das Standardmodell, jedoch mit der Variable RealisticLipSyncGenerator anstelle von VisemeGenerator.

Kopierbare Knoten.

Realistic Lip Sync From Streaming Local TTS

Das stimmungsfähige Modell verwendet denselben Audioverarbeitungs-Workflow, jedoch mit der Variable MoodMetaHumanLipSyncGenerator und zusätzlichen Konfigurationsmöglichkeiten für Stimmungen.

Kopierbare Nodes.

Mood-Enabled Lip Sync From Streaming Local TTS

Regulär
Streaming

Dieser Ansatz verwendet das Plugin „Runtime AI Chatbot Integrator“, um synthetisierte Sprache von KI-Diensten (OpenAI oder ElevenLabs) zu generieren und eine Lippensynchronisation durchzuführen:

Standardmodell
Realistisches Modell
Stimmungsgesteuertes realistisches Modell

Verwenden Sie den Runtime AI Chatbot Integrator, um Sprache aus Text mithilfe externer APIs (OpenAI, ElevenLabs usw.) zu generieren.
Verwenden Sie den Runtime Audio Importer, um die synthetisierten Audiodaten zu importieren.
Bevor Sie die importierte Schallwelle abspielen, binden Sie sich an deren OnGeneratePCMData-Delegaten.
Rufen Sie in der gebundenen Funktion ProcessAudioData von Ihrem Runtime Viseme Generator auf.

Kopierbare Knoten.

Lip Sync From Externally Synthesized Speech

Das realistische Modell verwendet denselben Audioverarbeitungs-Workflow wie das Standardmodell, jedoch mit der Variable RealisticLipSyncGenerator anstelle von VisemeGenerator.

Kopierbare Nodes.

Realistic Lip Sync From Externally Synthesized Speech

Das stimmungsfähige Modell verwendet denselben Audioverarbeitungs-Workflow, jedoch mit der Variable MoodMetaHumanLipSyncGenerator und zusätzlichen Konfigurationsmöglichkeiten für Stimmungen.

Kopierbare Nodes.

Mood-Enabled Lip Sync From Externally Synthesized Speech

Dieser Ansatz verwendet das Plugin „Runtime AI Chatbot Integrator“, um synthetisierte Streaming-Sprache aus KI-Diensten (OpenAI oder ElevenLabs) zu generieren und Lippen-Synchronisation durchzuführen:

Standardmodell
Realistisches Modell
Stimmungsgesteuertes realistisches Modell

Verwenden Sie Runtime AI Chatbot Integrator, um eine Verbindung zu Streaming-TTS-APIs (wie der ElevenLabs Streaming API) herzustellen
Verwenden Sie Runtime Audio Importer, um die synthetisierten Audiodaten zu importieren
Binden Sie vor der Wiedergabe der Streaming-Soundwelle an dessen OnGeneratePCMData-Delegate
Rufen Sie in der gebundenen Funktion ProcessAudioData von Ihrem Runtime Viseme Generator auf

Kopierbare Nodes.

Lip Sync From Externally Synthesized Streaming Speech

Das realistische Modell verwendet denselben Audioverarbeitungs-Workflow wie das Standardmodell, jedoch mit der Variable RealisticLipSyncGenerator anstelle von VisemeGenerator.

Kopierbare Knoten.

Realistic Lip Sync From Externally Synthesized Streaming Speech

Das stimmungsfähige Modell verwendet denselben Audioverarbeitungs-Workflow, jedoch mit der Variable MoodMetaHumanLipSyncGenerator und zusätzlichen Konfigurationsmöglichkeiten für Stimmungen.

Kopierbare Nodes.

Mood-Enabled Lip Sync From Externally Synthesized Streaming Speech

Dieser Ansatz verwendet vorab aufgezeichnete Audiodateien oder Audiopuffer für die Lippensynchronisation:

Standardmodell
Realistisches Modell
Stimmungsgesteuertes realistisches Modell

Verwenden Sie Runtime Audio Importer, um eine Audiodatei von der Festplatte oder aus dem Speicher zu importieren
Bevor Sie die importierte Schallwelle abspielen, binden Sie sich an deren OnGeneratePCMData-Delegaten
Rufen Sie in der gebundenen Funktion ProcessAudioData von Ihrem Runtime Viseme Generator auf
Spielen Sie die importierte Schallwelle ab und beobachten Sie die Lippen-Synchronisationsanimation

Kopierbare Knoten.

Lip Sync From Audio File

Das realistische Modell verwendet denselben Audioverarbeitungs-Workflow wie das Standardmodell, jedoch mit der Variable RealisticLipSyncGenerator anstelle von VisemeGenerator.

Kopierbare Knoten.

Realistic Lip Sync From Audio File

Das stimmungsfähige Modell verwendet denselben Audioverarbeitungs-Workflow, jedoch mit der Variable MoodMetaHumanLipSyncGenerator und zusätzlichen Konfigurationsmöglichkeiten für Stimmungen.

Kopierbare Nodes.

Mood-Enabled Lip Sync From Audio File

Für das Streamen von Audiodaten aus einem Puffer benötigen Sie:

Standardmodell
Realistisches Modell
Stimmungsgesteuertes realistisches Modell

Audiodaten im Float-PCM-Format (ein Array von Gleitkomma-Samples), die von Ihrer Streaming-Quelle verfügbar sind (oder verwenden Sie Runtime Audio Importer, um weitere Formate zu unterstützen)
Die Abtastrate und die Anzahl der Kanäle
Rufen Sie ProcessAudioData von Ihrem Runtime Viseme Generator mit diesen Parametern auf, sobald Audio-Chunks verfügbar werden

Kopierbare Knoten.

Lip Sync From Streaming Source

Das realistische Modell verwendet denselben Audioverarbeitungs-Workflow wie das Standardmodell, jedoch mit der Variable RealisticLipSyncGenerator anstelle von VisemeGenerator.

Kopierbare Knoten.

Realistic Lip Sync From Streaming Source

Das stimmungsfähige Modell verwendet denselben Audioverarbeitungs-Workflow, jedoch mit der Variable MoodMetaHumanLipSyncGenerator und zusätzlichen Konfigurationsmöglichkeiten für Stimmungen.

Kopierbare Nodes.

Mood-Enabled Lip Sync From Streaming Source

Hinweis: Bei der Verwendung von Streaming-Audioquellen stellen Sie sicher, dass die Audiowiedergabe zeitlich angemessen gesteuert wird, um verzerrte Wiedergabe zu vermeiden. Weitere Informationen finden Sie in der Dokumentation zu Streaming Sound Wave.

Leistungstipps zur Verarbeitung

Chunk-Größe: Eine Erhöhung der ProcessingChunkSize Konfigurationsoption (z. B. auf 320, 480 oder 640 Samples) kann die Latenz spürbar verbessern, bei minimalen Auswirkungen auf Qualität oder Reaktionsfähigkeit.
Modelltyp: Bei Verwendung realistischer Modelle kann der Wechsel zum hochoptimierten Modelltyp (standardmäßig ausgewählt) die Leistung verbessern. Beachten Sie, dass das ursprüngliche Modell möglicherweise eine etwas bessere Qualität liefert, insbesondere bei verrauschten Audiodaten.
Puffer-Verwaltung: Das stimmungsfähige Modell verarbeitet Audio in 320-Sample-Frames (20 ms bei 16 kHz). Stellen Sie sicher, dass Ihr Audio-Eingabe-Timing für eine optimale Leistung darauf abgestimmt ist.
Generator-Neuerstellung: Für einen zuverlässigen Betrieb mit realistischen Modellen erstellen Sie den Generator jedes Mal neu, wenn Sie nach einer Phase der Inaktivität neue Audiodaten zuführen möchten. Siehe Generator-Neuerstellung im Abschnitt zur Fehlerbehebung für die Erklärung.

Nächste Schritte

Sobald Sie die Audioverarbeitung eingerichtet haben, möchten Sie vielleicht:

Erfahren Sie mehr über Konfigurationsoptionen, um Ihr Lippensynchronisationsverhalten fein abzustimmen
Fügen Sie Lachanimationen für eine verbesserte Ausdruckskraft hinzu
Kombinieren Sie die Lippensynchronisation mit vorhandenen Gesichtsanimationen mithilfe der im Konfigurationsleitfaden beschriebenen Schichtungstechniken

Audio-Eingabeverarbeitung​

Leistungstipps zur Verarbeitung​

Nächste Schritte​

Audio-Eingabeverarbeitung

Leistungstipps zur Verarbeitung

Nächste Schritte