Übersicht
Der Runtime Speech Recognizer ist ein plattformübergreifendes Plugin, das Echtzeit-Spracherkennung ohne Internetverbindung ermöglicht. Basierend auf der Whisper OpenAI Technologie, insbesondere der whisper.cpp Bibliothek, unterstützt es mehrere Sprachmodelle, die in den Plugin-Einstellungen vorkonfiguriert sind.
Installation
Beim ersten Start müssen die Sprachmodelle installiert werden (ein Dialogfeld erscheint automatisch und fordert dazu auf).
Grundlegende Beschreibung
Dieses Plugin bietet Echtzeit-Spracherkennung mittels fortschrittlicher Algorithmen basierend auf der whisper.cpp Bibliothek, die unter der freizügigen MIT-Lizenz verfügbar ist. Es vergleicht eingehende Audiodaten, die als Stream oder Non-Stream-Input (z.B. eine Datei oder ein Audio-Datenpuffer) bereitgestellt werden, mit vortrainierten Sprachmodellen.
Das Plugin verwendet je nach Plattform verschiedene GPU-Beschleunigungsmethoden:
- Windows: Nutzt Vulkan zur GPU-Beschleunigung, was den Erkennungsprozess deutlich beschleunigt
- Mac und iOS: Verwendet Metal zur GPU-Beschleunigung, was eine mit Windows Vulkan vergleichbare, wenn nicht sogar bessere Leistung liefert
- Andere Plattformen: Nutzt CPU + Intrinsics zur Beschleunigung
Zusätzliche Ressourcen
- Auf Fab erhältlich
- Produktwebsite
- Demo herunterladen (Windows)
- Discord Support Server
- Video-Tutorial
- Individuelle Entwicklung: [email protected] (maßgeschneiderte Lösungen für Teams & Organisationen)