Zum Hauptinhalt springen

Übersicht

Runtime Speech Recognizer Dokumentation

Runtime Speech Recognizer ist ein plattformübergreifendes Plugin, das Echtzeit-Offline-Spracherkennung ermöglicht. Es basiert auf der Whisper OpenAI-Technologie, insbesondere der whisper.cpp-Bibliothek, und unterstützt mehrere Sprachmodelle, die in den Plugineinstellungen vorausgewählt werden können, mit automatischen Spracherkennungsfunktionen.

Installation

Beim ersten Start müssen Sprachmodelle installiert werden (ein Dialogfeld erscheint und fordert Sie automatisch dazu auf).

Grundlegende Beschreibung

Dieses Plugin bietet Echtzeit-Spracherkennung mithilfe fortschrittlicher Algorithmen, die auf der whisper.cpp-Bibliothek basieren, die unter der permissiven MIT-Lizenz verfügbar ist. Es vergleicht eingehende Audiodaten, die als Stream oder Non-Stream-Eingabe (z. B. eine Datei oder ein Puffer mit Audiodaten) bereitgestellt werden, mit vortrainierten Sprachmodellen. Bei Verwendung mehrsprachiger Modelle kann das Plugin automatisch die gesprochene Sprache erkennen und diese Information zusammen mit dem erkannten Text liefern.

Das Plugin verwendet je nach Plattform verschiedene GPU-Beschleunigungsmethoden:

  • Windows: Verwendet Vulkan zur GPU-Beschleunigung, was den Erkennungsprozess erheblich beschleunigt
  • Mac und iOS: Verwendet Metal zur GPU-Beschleunigung, was eine Leistung liefert, die mit der Windows-Vulkan-Beschleunigung vergleichbar ist, wenn nicht sogar schneller
  • Andere Plattformen: Verwendet CPU + Intrinsics zur Beschleunigung (kann langsamer sein, z. B. auf Android oder Meta Quest bei nativer Ausführung)

Zusätzliche Ressourcen