Übersicht
Runtime Speech Recognizer ist ein plattformübergreifendes Plugin, das Echtzeit-Spracherkennung ohne Internetverbindung ermöglicht. Basierend auf der Whisper OpenAI Technologie, insbesondere der whisper.cpp Bibliothek, und unterstützt mehrere Sprachmodelle, die in den Plug-in-Einstellungen vorausgewählt werden können.
Installation
Beim ersten Start müssen die Sprachmodelle installiert werden (ein Dialogfeld erscheint, das Sie automatisch dazu auffordert).
Grundlegende Beschreibung
Dieses Plugin bietet Echtzeit-Spracherkennung mittels fortschrittlicher Algorithmen, die auf der whisper.cpp Bibliothek basieren, die unter der permissiven MIT-Lizenz verfügbar ist. Es vergleicht eingehende Audiodaten, die als Stream- oder Non-Stream-Eingabe (wie eine Datei oder ein Puffer mit Audiodaten) bereitgestellt werden, mit vortrainierten Sprachmodellen.
Das Plugin verwendet je nach Plattform verschiedene GPU-Beschleunigungsmethoden:
- Windows: Verwendet Vulkan für die GPU-Beschleunigung, was den Erkennungsprozess erheblich beschleunigt
- Mac und iOS: Verwendet Metal für die GPU-Beschleunigung, was eine Leistung liefert, die mit der Windows Vulkan-Beschleunigung vergleichbar ist, wenn nicht schneller
- Andere Plattformen: Verwendet CPU + Intrinsics zur Beschleunigung (kann langsamer sein, wie z.B. auf Android oder Meta Quest, wenn nativ ausgeführt)
Zusätzliche Ressourcen
- Auf Fab erhältlich
- Produkt-Website
- Demo herunterladen (Windows)
- Discord-Support-Server
- Video-Tutorial
- Individuelle Entwicklung: [email protected] (maßgeschneiderte Lösungen für Teams & Organisationen)