Wie man das Plugin verwendet

Das Runtime Speech Recognizer Plugin ist dafür ausgelegt, Wörter aus eingehenden Audiodaten zu erkennen. Es verwendet eine leicht modifizierte Version von whisper.cpp, um mit der Engine zu arbeiten. Um das Plugin zu verwenden, folgen Sie diesen Schritten:

Editor-Seite

Wählen Sie die passenden Sprachmodelle für Ihr Projekt aus, wie hier beschrieben.

Laufzeit-Seite

Erstellen Sie einen Speech Recognizer und setzen Sie die notwendigen Parameter (CreateSpeechRecognizer, für Parameter siehe hier).
Binden Sie die benötigten Delegates (OnRecognitionFinished, OnRecognizedTextSegment und OnRecognitionError).
Starten Sie die Spracherkennung (StartSpeechRecognition).
Verarbeiten Sie Audiodaten und warten Sie auf Ergebnisse von den Delegates (ProcessAudioData).
Stoppen Sie den Speech Recognizer bei Bedarf (z.B. nach dem OnRecognitionFinished Broadcast).

Das Plugin unterstützt eingehende Audiodaten im 32-Bit Floating-Point interleaved PCM Format. Während es gut mit dem Runtime Audio Importer zusammenarbeitet, ist es nicht direkt davon abhängig.

Erkennungsparameter

Das Plugin unterstützt sowohl die Erkennung von Streaming- als auch Nicht-Streaming-Audiodaten. Um die Erkennungsparameter für Ihren spezifischen Anwendungsfall anzupassen, rufen Sie SetStreamingDefaults oder SetNonStreamingDefaults auf. Zusätzlich haben Sie die Flexibilität, individuelle Parameter manuell zu setzen, wie die Anzahl der Threads, Schrittgröße, ob die eingehende Sprache ins Englische übersetzt werden soll und ob frühere Transkriptionen verwendet werden sollen. Siehe die Recognition Parameter List für eine vollständige Liste der verfügbaren Parameter.

Leistungsverbesserung

Bitte lesen Sie den Abschnitt How to improve performance für Tipps zur Optimierung der Plugin-Leistung.

Voice Activity Detection (VAD)

Bei der Verarbeitung von Audioeingängen, insbesondere in Streaming-Szenarien, wird empfohlen, Voice Activity Detection (VAD) zu verwenden, um leere oder nur Rauschen enthaltende Audiosegmente herauszufiltern, bevor sie den Recognizer erreichen. Diese Filterung kann auf der Seite der aufnehmbaren Schallwelle mit dem Runtime Audio Importer Plugin aktiviert werden, was verhindert, dass die Sprachmodelle Halluzinationen erzeugen - also versuchen, Muster im Rauschen zu finden und falsche Transkriptionen zu generieren.

Für optimale Spracherkennungsergebnisse empfehlen wir die Verwendung des Silero VAD Providers, der eine überlegene Rauschunterdrückung und genauere Spracherkennung bietet. Der Silero VAD ist als Erweiterung für das Runtime Audio Importer Plugin verfügbar. Detaillierte Anweisungen zur VAD-Konfiguration finden Sie in der Voice Activity Detection Dokumentation.

hinweis

Die kopierbaren Nodes in den folgenden Beispielen verwenden aus Kompatibilitätsgründen den standardmäßigen VAD-Provider. Um die Erkennungsgenauigkeit zu verbessern, können Sie einfach auf Silero VAD umschalten, indem Sie:

Die Silero VAD-Erweiterung wie im Silero VAD Extension-Abschnitt beschrieben installieren
Nach dem Aktivieren von VAD mit dem Toggle VAD-Node einen Set VAD Provider-Node hinzufügen und "Silero" aus der Dropdown-Liste auswählen

Im Demo-Projekt, das mit dem Plugin geliefert wird, ist VAD standardmäßig aktiviert. Weitere Informationen zur Demo-Implementierung finden Sie unter Demo Project.

Beispiele

Im Plugin-Ordner Content -> Demo befindet sich ein gutes Demo-Projekt, das Sie als Implementierungsbeispiel verwenden können.

Diese Beispiele zeigen, wie das Runtime Speech Recognizer-Plugin mit Streaming- und Nicht-Streaming-Audioeingaben verwendet wird, wobei der Runtime Audio Importer als Beispiel für die Beschaffung von Audiodaten dient. Bitte beachten Sie, dass der RuntimeAudioImporter separat heruntergeladen werden muss, um auf denselben Satz von Audioimportfunktionen zuzugreifen, die in den Beispielen gezeigt werden (z.B. capturable sound wave und ImportAudioFromFile). Diese Beispiele dienen ausschließlich der Veranschaulichung des Kernkonzepts und enthalten keine Fehlerbehandlung.

Beispiele für Streaming-Audioeingaben

Hinweis: In UE 5.3 und anderen Versionen können fehlende Nodes nach dem Kopieren von Blueprints auftreten. Dies kann aufgrund von Unterschieden in der Node-Serialisierung zwischen Engine-Versionen vorkommen. Überprüfen Sie immer, ob alle Nodes in Ihrer Implementierung korrekt verbunden sind.

1. Grundlegende Streaming-Erkennung

Dieses Beispiel zeigt den grundlegenden Aufbau zur Erfassung von Audiodaten vom Mikrofon als Stream unter Verwendung der Capturable sound wave und deren Übergabe an den Speech Recognizer. Es zeichnet Sprache für etwa 5 Sekunden auf und verarbeitet dann die Erkennung, was es für schnelle Tests und einfache Implementierungen geeignet macht. Kopierbare Nodes.

Wesentliche Merkmale dieses Aufbaus:

Feste Aufnahmedauer von 5 Sekunden
Einfache One-Shot-Erkennung
Minimaler Einrichtungsaufwand
Ideal für Tests und Prototyping

2. Kontrollierte Streaming-Erkennung

Dieses Beispiel erweitert den grundlegenden Streaming-Aufbau durch manuelle Steuerung des Erkennungsprozesses. Es ermöglicht Ihnen, die Erkennung nach Belieben zu starten und zu stoppen, was es für Szenarien geeignet macht, in denen Sie präzise Kontrolle über den Erkennungszeitpunkt benötigen. Kopierbare Nodes.

Wesentliche Merkmale dieses Aufbaus:

Manuelle Start/Stop-Steuerung
Kontinuierliche Erkennungsfähigkeit
Flexible Aufnahmedauer
Geeignet für interaktive Anwendungen

3. Sprachaktivierte Befehlserkennung

Dieses Beispiel ist für Befehlserkennungsszenarien optimiert. Es kombiniert Streaming-Erkennung mit Voice Activity Detection (VAD), um Sprache automatisch zu verarbeiten, wenn der Benutzer aufhört zu sprechen. Der Erkennungsprozess startet nur, wenn Stille erkannt wird, was es ideal für befehlsbasierte Schnittstellen macht. Kopierbare Nodes.

Hauptmerkmale dieses Setups:

Manuelle Start/Stop-Steuerung
Voice Activity Detection (VAD) aktiviert zur Erkennung von Sprachsegmenten
Automatische Erkennungsauslösung bei Stille
Optimal für kurze Befehlserkennung
Reduzierte Verarbeitungslast durch Erkennung nur bei tatsächlicher Sprache

4. Automatisch initialisierende Spracherkennung mit finaler Pufferverarbeitung

Dieses Beispiel ist eine weitere Variante des sprachaktivierten Erkennungsansatzes mit unterschiedlicher Lebenszyklusbehandlung. Es startet den Erkennungsprozess automatisch während der Initialisierung und stoppt ihn während der Deinitialisierung. Ein Hauptmerkmal ist die Verarbeitung des letzten akkumulierten Audiopuffers vor dem Stoppen des Erkenners, wodurch sichergestellt wird, dass keine Sprachdaten verloren gehen, wenn der Benutzer den Erkennungsprozess beenden möchte. Dieses Setup ist besonders nützlich für Anwendungen, bei denen vollständige Benutzeräußerungen erfasst werden müssen, selbst wenn mitten in der Sprache gestoppt wird. Kopierbare Nodes.

Hauptmerkmale dieses Setups:

Automatischer Start des Erkenners bei Initialisierung
Automatischer Stopp des Erkenners bei Deinitialisierung
Verarbeitung des finalen Audiopuffers vor komplettem Stopp
Nutzt Voice Activity Detection (VAD) für effiziente Erkennung
Stellt sicher, dass keine Sprachdaten beim Stoppen verloren gehen

Nicht-streamende Audioeingabe

Dieses Beispiel importiert Audiodaten in die "Imported sound wave" und erkennt die vollständigen Audiodaten einmal, nachdem sie importiert wurden. Kopierbare Nodes.

Editor-Seite​

Laufzeit-Seite​

Erkennungsparameter​

Leistungsverbesserung​

Voice Activity Detection (VAD)​

Beispiele​

Beispiele für Streaming-Audioeingaben​

1. Grundlegende Streaming-Erkennung​

2. Kontrollierte Streaming-Erkennung​

3. Sprachaktivierte Befehlserkennung​

4. Automatisch initialisierende Spracherkennung mit finaler Pufferverarbeitung​

Nicht-streamende Audioeingabe​