Übersicht

Runtime Speech Recognizer ist ein plattformübergreifendes Plugin, das Echtzeit-Offline-Spracherkennung ermöglicht. Es basiert auf der Whisper OpenAI-Technologie, insbesondere der whisper.cpp-Bibliothek, und unterstützt mehrere Sprachmodelle, die in den Plugin-Einstellungen vorausgewählt werden können, mit automatischen Spracherkennungsfunktionen.

Installation

Beim ersten Start müssen Sprachmodelle installiert werden (ein Dialogfeld erscheint und fordert Sie automatisch dazu auf).

Grundlegende Beschreibung

Dieses Plugin bietet Echtzeit-Spracherkennung mithilfe fortschrittlicher Algorithmen, die auf der whisper.cpp-Bibliothek basieren, die unter der permissiven MIT-Lizenz verfügbar ist. Es vergleicht eingehende Audiodaten, die als Stream oder Non-Stream-Input (z. B. eine Datei oder ein Puffer mit Audiodaten) bereitgestellt werden, mit vortrainierten Sprachmodellen. Bei Verwendung mehrsprachiger Modelle kann das Plugin automatisch die gesprochene Sprache erkennen und diese Information zusammen mit dem erkannten Text liefern.

Das Plugin verwendet je nach Plattform verschiedene GPU-Beschleunigungsmethoden:

Windows und Linux: Verwendet Vulkan zur GPU-Beschleunigung, was den Erkennungsprozess erheblich beschleunigt
Mac und iOS: Verwendet Metal zur GPU-Beschleunigung, was eine Leistung liefert, die mit der Windows- oder Linux-Vulkan-Beschleunigung vergleichbar ist, wenn nicht sogar schneller
Andere Plattformen: Verwendet CPU + Intrinsics zur Beschleunigung (kann langsamer sein, z. B. auf Android oder Meta Quest bei nativer Ausführung)

Zusätzliche Ressourcen

Auf Fab erhältlich
Produkt-Website
Demo herunterladen (Windows)
Discord-Support-Server
Video-Tutorial
Plugin-Support & Individuelle Entwicklung: [email protected] (maßgeschneiderte Lösungen für Teams & Organisationen)

Installation​

Grundlegende Beschreibung​

Zusätzliche Ressourcen​

Installation

Grundlegende Beschreibung

Zusätzliche Ressourcen