Zum Hauptinhalt springen

Wie Sie die Leistung verbessern können

Das Plugin verwendet je nach Plattform verschiedene GPU-Beschleunigungsmethoden: Vulkan unter Windows und Metal auf Mac- und iOS-Plattformen, was den Erkennungsprozess erheblich beschleunigt. Auf anderen Plattformen verwendet das Plugin die CPU + Intrinsics zur Beschleunigung. Sie können die Leistung des Plugins jedoch weiter verbessern, indem Sie die folgenden Empfehlungen befolgen:

  1. Verwenden Sie Voice Activity Detection (VAD)

    Es wird dringend empfohlen, Voice Activity Detection zu verwenden, um die Reaktionsfähigkeit des Erkenners zu verbessern, indem die Sprache zur Erkennung gesendet wird, sobald der Benutzer aufhört zu sprechen, anstatt auf feste Zeitintervalle zu warten. Insbesondere das Silero VAD wird für diesen Zweck empfohlen. Detaillierte Implementierungsanweisungen finden Sie in der Voice Activity Detection-Dokumentation.

  2. Verringern Sie die Schrittgröße

    Standardmäßig beträgt die Schrittgröße 5000 ms (5 Sekunden), was bedeutet, dass die Audiodaten während der Aufnahme alle 5 Sekunden erkannt werden. Wenn Sie die Audiodaten häufiger erkennen möchten, können Sie die Schrittgröße verringern, z.B. auf 500 ms (0,5 Sekunden). Wenn jedoch VAD aktiv ist (was in der Regel empfohlen wird, es sei denn, Sie haben spezifische Anforderungen, die feste Intervalle erfordern), wird empfohlen, sich nicht auf die Verringerung der Schrittgröße zu verlassen. Bei der Verwendung von VAD in typischen Setups wie Voice Activated Command Recognition oder Auto-Initializing Voice Recognition with Final Buffer Processing wird die Sprache ohnehin erkannt, sobald der Benutzer aufhört zu sprechen.

  3. Verwenden Sie ein kleineres Sprachmodell

    Sie können in Betracht ziehen, ein kleineres Sprachmodell zu verwenden, wie z.B. Tiny Quantized (Q5_1), um die Modellgröße zu reduzieren und die Leistung zu verbessern. Anweisungen zur Auswahl eines Sprachmodells finden Sie hier.

  4. Optimieren Sie die Erkennungsstatusverwaltung

    Vermeiden Sie bei der Arbeit mit Mikrofoneingang unnötige Stopps und Starts des Spracherkenners. Anstatt häufig StopSpeechRecognition und StartSpeechRecognition aufzurufen, was eine Neuverteilung von Ressourcen erfordert, sollten Sie die Audioeingabe direkt steuern. Verwenden Sie beispielsweise bei einer capturable sound wave StopCapture und StartCapture, um den Audiofluss zu verwalten, während der Erkennungsthread aktiv bleibt.