Zum Hauptinhalt springen

Übersicht

Runtime Speech Recognizer Dokumentation

Der Runtime Speech Recognizer ist ein plattformübergreifendes Plugin, das Echtzeit-Spracherkennung ohne Internetverbindung ermöglicht. Basierend auf der Whisper OpenAI Technologie, insbesondere der whisper.cpp Bibliothek, unterstützt es mehrere Sprachmodelle, die in den Plugin-Einstellungen vorkonfiguriert sind.

Installation

Beim ersten Start müssen die Sprachmodelle installiert werden (ein Dialogfeld erscheint automatisch und fordert dazu auf).

Grundlegende Beschreibung

Dieses Plugin bietet Echtzeit-Spracherkennung mittels fortschrittlicher Algorithmen basierend auf der whisper.cpp Bibliothek, die unter der freizügigen MIT-Lizenz verfügbar ist. Es vergleicht eingehende Audiodaten, die als Stream oder Non-Stream-Input (z.B. eine Datei oder ein Audio-Datenpuffer) bereitgestellt werden, mit vortrainierten Sprachmodellen.

Das Plugin verwendet je nach Plattform verschiedene GPU-Beschleunigungsmethoden:

  • Windows: Nutzt Vulkan zur GPU-Beschleunigung, was den Erkennungsprozess deutlich beschleunigt
  • Mac und iOS: Verwendet Metal zur GPU-Beschleunigung, was eine mit Windows Vulkan vergleichbare, wenn nicht sogar bessere Leistung liefert
  • Andere Plattformen: Nutzt CPU + Intrinsics zur Beschleunigung

Zusätzliche Ressourcen