Leitfaden zur Audioverarbeitung
Dieser Leitfaden erklärt, wie Sie verschiedene Audio-Eingabemethoden einrichten, um Audiodaten an Ihre Lip-Sync-Generatoren zu liefern. Stellen Sie sicher, dass Sie den Setup-Leitfaden abgeschlossen haben, bevor Sie fortfahren.
Audio-Eingabeverarbeitung
Sie müssen eine Methode zur Verarbeitung von Audio-Eingaben einrichten. Es gibt mehrere Möglichkeiten, dies je nach Ihrer Audioquelle zu tun.
- Mikrofon (Echtzeit)
- Mikrofon (Wiedergabe)
- Text-to-Speech (Lokal)
- Text-to-Speech (Externe APIs)
- Aus Audiodatei/-puffer
- Streaming-Audiopuffer
Dieser Ansatz führt Lip Sync in Echtzeit während des Sprechens in das Mikrofon durch:
- Standard-Modell
- Realistisches Modell
- Stimmungsfähiges realistisches Modell
- Erstellen Sie eine Capturable Sound Wave mit Runtime Audio Importer
- Verwenden Sie unter Linux mit Pixel Streaming stattdessen die Pixel Streaming Capturable Sound Wave
- Binden Sie vor dem Starten der Audioaufnahme den
OnPopulateAudioData-Delegate - Rufen Sie in der gebundenen Funktion
ProcessAudioDatavon Ihrem Runtime Viseme Generator auf - Starten Sie die Audioaufnahme vom Mikrofon

Das Realistische Modell verwendet denselben Audioverarbeitungs-Workflow wie das Standard-Modell, jedoch mit der Variable RealisticLipSyncGenerator anstelle von VisemeGenerator.

Das Stimmungsfähige Modell verwendet denselben Audioverarbeitungs-Workflow, jedoch mit der Variable MoodMetaHumanLipSyncGenerator und zusätzlichen Konfigurationsmöglichkeiten für Stimmungen.

Dieser Ansatz nimmt Audio von einem Mikrofon auf und gibt es dann mit Lip Sync wieder:
- Standard-Modell
- Realistisches Modell
- Stimmungsfähiges realistisches Modell
- Erstellen Sie eine Capturable Sound Wave mit Runtime Audio Importer
- Verwenden Sie unter Linux mit Pixel Streaming stattdessen die Pixel Streaming Capturable Sound Wave
- Starten Sie die Audioaufnahme vom Mikrofon
- Binden Sie vor der Wiedergabe der aufnehmbaren Sound Wave deren
OnGeneratePCMData-Delegate - Rufen Sie in der gebundenen Funktion
ProcessAudioDatavon Ihrem Runtime Viseme Generator auf

Das Realistische Modell verwendet denselben Audioverarbeitungs-Workflow wie das Standard-Modell, jedoch mit der Variable RealisticLipSyncGenerator anstelle von VisemeGenerator.

Das Stimmungsfähige Modell verwendet denselben Audioverarbeitungs-Workflow, jedoch mit der Variable MoodMetaHumanLipSyncGenerator und zusätzlichen Konfigurationsmöglichkeiten für Stimmungen.

- Regulär
- Streaming
Dieser Ansatz synthetisiert Sprache aus Text mit lokaler TTS und führt Lip Sync durch:
- Standard-Modell
- Realistisches Modell
- Stimmungsfähiges realistisches Modell
- Verwenden Sie Runtime Text To Speech, um Sprache aus Text zu generieren
- Verwenden Sie Runtime Audio Importer, um das synthetisierte Audio zu importieren
- Binden Sie vor der Wiedergabe der importierten Sound Wave deren
OnGeneratePCMData-Delegate - Rufen Sie in der gebundenen Funktion
ProcessAudioDatavon Ihrem Runtime Viseme Generator auf

Das Realistische Modell verwendet denselben Audioverarbeitungs-Workflow wie das Standard-Modell, jedoch mit der Variable RealisticLipSyncGenerator anstelle von VisemeGenerator.

Das Stimmungsfähige Modell verwendet denselben Audioverarbeitungs-Workflow, jedoch mit der Variable MoodMetaHumanLipSyncGenerator und zusätzlichen Konfigurationsmöglichkeiten für Stimmungen.

Dieser Ansatz verwendet Streaming-Text-to-Speech-Synthese mit Echtzeit-Lip-Sync:
- Standard-Modell
- Realistisches Modell
- Stimmungsfähiges realistisches Modell
- Verwenden Sie Runtime Text To Speech, um Streaming-Sprache aus Text zu generieren
- Verwenden Sie Runtime Audio Importer, um das synthetisierte Audio zu importieren
- Binden Sie vor der Wiedergabe der Streaming-Sound-Wave deren
OnGeneratePCMData-Delegate - Rufen Sie in der gebundenen Funktion
ProcessAudioDatavon Ihrem Runtime Viseme Generator auf

Das Realistische Modell verwendet denselben Audioverarbeitungs-Workflow wie das Standard-Modell, jedoch mit der Variable RealisticLipSyncGenerator anstelle von VisemeGenerator.

Das Stimmungsfähige Modell verwendet denselben Audioverarbeitungs-Workflow, jedoch mit der Variable MoodMetaHumanLipSyncGenerator und zusätzlichen Konfigurationsmöglichkeiten für Stimmungen.

- Regulär
- Streaming
Dieser Ansatz verwendet das Runtime AI Chatbot Integrator-Plugin, um synthetisierte Sprache von KI-Diensten (OpenAI oder ElevenLabs) zu generieren und Lip Sync durchzuführen:
- Standard-Modell
- Realistisches Modell
- Stimmungsfähiges realistisches Modell
- Verwenden Sie Runtime AI Chatbot Integrator, um Sprache aus Text unter Verwendung externer APIs (OpenAI, ElevenLabs, etc.) zu generieren
- Verwenden Sie Runtime Audio Importer, um die synthetisierten Audiodaten zu importieren
- Binden Sie vor der Wiedergabe der importierten Sound Wave deren
OnGeneratePCMData-Delegate - Rufen Sie in der gebundenen Funktion
ProcessAudioDatavon Ihrem Runtime Viseme Generator auf

Das Realistische Modell verwendet denselben Audioverarbeitungs-Workflow wie das Standard-Modell, jedoch mit der Variable RealisticLipSyncGenerator anstelle von VisemeGenerator.

Das Stimmungsfähige Modell verwendet denselben Audioverarbeitungs-Workflow, jedoch mit der Variable MoodMetaHumanLipSyncGenerator und zusätzlichen Konfigurationsmöglichkeiten für Stimmungen.

Dieser Ansatz verwendet das Runtime AI Chatbot Integrator-Plugin, um synthetisierte Streaming-Sprache von KI-Diensten (OpenAI oder ElevenLabs) zu generieren und Lip Sync durchzuführen:
- Standard-Modell
- Realistisches Modell
- Stimmungsfähiges realistisches Modell
- Verwenden Sie Runtime AI Chatbot Integrator, um eine Verbindung zu Streaming-TTS-APIs (wie der ElevenLabs Streaming API) herzustellen
- Verwenden Sie Runtime Audio Importer, um die synthetisierten Audiodaten zu importieren
- Binden Sie vor der Wiedergabe der Streaming-Sound-Wave deren
OnGeneratePCMData-Delegate - Rufen Sie in der gebundenen Funktion
ProcessAudioDatavon Ihrem Runtime Viseme Generator auf

Das Realistische Modell verwendet denselben Audioverarbeitungs-Workflow wie das Standard-Modell, jedoch mit der Variable RealisticLipSyncGenerator anstelle von VisemeGenerator.

Das Stimmungsfähige Modell verwendet denselben Audioverarbeitungs-Workflow, jedoch mit der Variable MoodMetaHumanLipSyncGenerator und zusätzlichen Konfigurationsmöglichkeiten für Stimmungen.

Dieser Ansatz verwendet vorab aufgenommene Audiodateien oder Audiopuffer für Lip Sync:
- Standard-Modell
- Realistisches Modell
- Stimmungsfähiges realistisches Modell
- Verwenden Sie Runtime Audio Importer, um eine Audiodatei von der Festplatte oder aus dem Speicher zu importieren
- Binden Sie vor der Wiedergabe der importierten Sound Wave deren
OnGeneratePCMData-Delegate - Rufen Sie in der gebundenen Funktion
ProcessAudioDatavon Ihrem Runtime Viseme Generator auf - Spielen Sie die importierte Sound Wave ab und beobachten Sie die Lip-Sync-Animation

Das Realistische Modell verwendet denselben Audioverarbeitungs-Workflow wie das Standard-Modell, jedoch mit der Variable RealisticLipSyncGenerator anstelle von VisemeGenerator.

Das Stimmungsfähige Modell verwendet denselben Audioverarbeitungs-Workflow, jedoch mit der Variable MoodMetaHumanLipSyncGenerator und zusätzlichen Konfigurationsmöglichkeiten für Stimmungen.

Für das Streaming von Audiodaten aus einem Puffer benötigen Sie:
- Standard-Modell
- Realistisches Modell
- Stimmungsfähiges realistisches Modell
- Audiodaten im Float-PCM-Format (ein Array von Gleitkomma-Abtastwerten), die von Ihrer Streaming-Quelle verfügbar sind (oder verwenden Sie Runtime Audio Importer zur Unterstützung weiterer Formate)
- Die Abtastrate und die Anzahl der Kanäle
- Rufen Sie
ProcessAudioDatavon Ihrem Runtime Viseme Generator mit diesen Parametern auf, sobald Audio-Chunks verfügbar werden

Das Realistische Modell verwendet denselben Audioverarbeitungs-Workflow wie das Standard-Modell, jedoch mit der Variable RealisticLipSyncGenerator anstelle von VisemeGenerator.

Das Stimmungsfähige Modell verwendet denselben Audioverarbeitungs-Workflow, jedoch mit der Variable MoodMetaHumanLipSyncGenerator und zusätzlichen Konfigurationsmöglichkeiten für Stimmungen.

Hinweis: Bei Verwendung von Streaming-Audioquellen stellen Sie sicher, dass Sie das Timing der Audiowiedergabe angemessen verwalten, um verzerrte Wiedergabe zu vermeiden. Weitere Informationen finden Sie in der Dokumentation zur Streaming Sound Wave.
Tipps zur Verarbeitungsleistung
-
Chunk-Größe: Eine Erhöhung der
ProcessingChunkSizeKonfigurationsoption (z. B. auf 320, 480 oder 640 Abtastwerte) kann die Latenz merklich verbessern, bei minimalen Auswirkungen auf Qualität oder Reaktionsfähigkeit. -
Modelltyp: Bei Verwendung von Realistic-Modellen kann ein Wechsel zum Hochoptimierten Modelltyp (standardmäßig ausgewählt) die Leistung verbessern. Beachten Sie, dass das ursprüngliche Modell möglicherweise eine etwas bessere Qualität liefert, insbesondere bei verrauschtem Audio.
-
Pufferverwaltung: Das stimmungsfähige Modell verarbeitet Audio in 320-Abtastwert-Frames (20 ms bei 16 kHz). Stellen Sie sicher, dass Ihr Audio-Eingabe-Timing für optimale Leistung damit übereinstimmt.
-
Generator-Neuerstellung: Für einen zuverlässigen Betrieb mit Realistic-Modellen erstellen Sie den Generator jedes Mal neu, wenn Sie nach einer Phase der Inaktivität neue Audiodaten zuführen möchten. Siehe Generator-Neuerstellung in der Fehlerbehebung für die Erklärung.
Nächste Schritte
Sobald Sie die Audioverarbeitung eingerichtet haben, möchten Sie vielleicht:
- Mehr über Konfigurationsoptionen erfahren, um Ihr Lip-Sync-Verhalten fein abzustimmen
- Lach-Animation für mehr Ausdruckskraft hinzufügen
- Lip Sync mit vorhandenen Gesichtsanimationen kombinieren, indem Sie die im Konfigurationsleitfaden beschriebenen Schichtungstechniken verwenden