Übersicht
Runtime Speech Recognizer ist ein plattformübergreifendes Plugin, das Echtzeit-Spracherkennung ohne Internetverbindung ermöglicht. Basierend auf der Whisper OpenAI Technologie, insbesondere der whisper.cpp Bibliothek, unterstützt es mehrere Sprachmodelle, die in den Plugin-Einstellungen vorkonfiguriert sind.
Installation
Beim ersten Start müssen Sprachmodelle installiert werden (ein Dialogfeld erscheint automatisch mit der entsprechenden Aufforderung).
Grundlegende Beschreibung
Dieses Plugin bietet Echtzeit-Spracherkennung mittels fortschrittlicher Algorithmen, basierend auf der whisper.cpp Bibliothek. Es vergleicht eingehende Audiodaten, die als Stream oder nicht-streaming Eingabe (z.B. eine Datei oder Audio-Datenpuffer) bereitgestellt werden, mit vortrainierten Sprachmodellen.
Unter Windows nutzt das Plugin Vulkan zur GPU-Beschleunigung, was den Erkennungsprozess erheblich beschleunigt. Auf anderen Plattformen verwendet das Plugin die CPU + Intrinsics zur Beschleunigung.
Zusätzliche Ressourcen
- Auf Fab erhältlich
- Produktwebsite
- Demo herunterladen (Windows)
- Discord Support-Server
- Video-Tutorial
- Individuelle Entwicklung: [email protected] (maßgeschneiderte Lösungen für Teams & Organisationen)