Zum Hauptinhalt springen

Übersicht

Runtime Speech Recognizer Dokumentation

Runtime Speech Recognizer ist ein plattformübergreifendes Plugin, das Echtzeit-Spracherkennung ohne Internetverbindung ermöglicht. Basierend auf der Whisper OpenAI Technologie, insbesondere der whisper.cpp Bibliothek, unterstützt es mehrere Sprachmodelle, die in den Plugin-Einstellungen vorkonfiguriert sind.

Installation

Beim ersten Start müssen Sprachmodelle installiert werden (ein Dialogfeld erscheint automatisch mit der entsprechenden Aufforderung).

Grundlegende Beschreibung

Dieses Plugin bietet Echtzeit-Spracherkennung mittels fortschrittlicher Algorithmen, basierend auf der whisper.cpp Bibliothek. Es vergleicht eingehende Audiodaten, die als Stream oder nicht-streaming Eingabe (z.B. eine Datei oder Audio-Datenpuffer) bereitgestellt werden, mit vortrainierten Sprachmodellen.

Unter Windows nutzt das Plugin Vulkan zur GPU-Beschleunigung, was den Erkennungsprozess erheblich beschleunigt. Auf anderen Plattformen verwendet das Plugin die CPU + Intrinsics zur Beschleunigung.

Zusätzliche Ressourcen