Zum Hauptinhalt springen

Übersicht

Runtime Speech Recognizer Dokumentation

Runtime Speech Recognizer ist ein plattformübergreifendes Plugin, das Echtzeit-Spracherkennung offline ermöglicht. Es basiert auf der Whisper OpenAI Technologie, insbesondere der whisper.cpp Bibliothek, und unterstützt mehrere Sprachmodelle, die in den Plugin-Einstellungen vorausgewählt werden können, mit automatischen Spracherkennungsfunktionen.

Installation

Beim ersten Start müssen Sprachmodelle installiert werden (ein Dialogfeld erscheint automatisch und fordert Sie dazu auf).

Grundlegende Beschreibung

Dieses Plugin bietet Echtzeit-Spracherkennung mittels fortschrittlicher Algorithmen, die auf der whisper.cpp Bibliothek basieren, die unter der freizügigen MIT-Lizenz verfügbar ist. Es vergleicht eingehende Audiodaten, die als Stream oder Non-Stream-Eingabe (wie eine Datei oder ein Audiodatenpuffer) bereitgestellt werden, mit vortrainierten Sprachmodellen. Bei Verwendung mehrsprachiger Modelle kann das Plugin die gesprochene Sprache automatisch erkennen und diese Information zusammen mit dem erkannten Text liefern.

Das Plugin verwendet je nach Plattform verschiedene GPU-Beschleunigungsmethoden:

  • Windows: Verwendet Vulkan für GPU-Beschleunigung, was den Erkennungsprozess erheblich beschleunigt
  • Mac und iOS: Verwendet Metal für GPU-Beschleunigung, was eine Leistung liefert, die mit der Windows Vulkan-Beschleunigung vergleichbar ist, wenn nicht sogar schneller
  • Andere Plattformen: Verwendet CPU + Intrinsics für Beschleunigung (kann langsamer sein, wie z.B. auf Android oder Meta Quest bei nativer Ausführung)

Zusätzliche Ressourcen