Runtime Speech Recognizer
Dokumentation für das Runtime Speech Recognizer Plugin.
- Auf Fab erhältlich
- Produkt-Website
- Demo herunterladen (Windows)
- Discord-Support-Server
- Video-Tutorial
- Individuelle Entwicklung: [email protected] (maßgeschneiderte Lösungen für Teams & Organisationen)
📄️ Übersicht
Runtime Speech Recognizer Dokumentation
📄️ Verwendung des Plugins
Das Runtime Speech Recognizer Plugin ist dafür konzipiert, Wörter aus eingehenden Audiodaten zu erkennen. Es verwendet eine leicht modifizierte Version von whisper.cpp, um mit der Engine zu arbeiten. So verwenden Sie das Plugin:
📄️ Wie man Sprachmodelle verwendet
Auswahl, Download und Verpackung von Modellen
📄️ Liste der Erkennungsparameter
Diese Parameter können nur gesetzt werden, während der Erkennungsprozess nicht aktiv ist.
📄️ Unterstützte Sprachen
Dies ist die vollständige Liste der Sprachen, die von den verfügbaren Sprachmodellen unterstützt werden.
📄️ Befehlserkennung
Levenshtein-Ähnlichkeit berechnen
📄️ Minimierung von Einfrieren
Diese Anleitung behandelt zwei häufige Ursachen für Einfrieren im RuntimeSpeechRecognizer-Plugin und bietet praktische Lösungen zur Reduzierung der Leistungsbeeinträchtigung.
📄️ Fehlerbehebung
Die meisten Probleme hängen mit dem Staging des Sprachmodells zusammen, was in der gepackten Build zu Schwierigkeiten führen kann. Konkret könnten Ihnen folgende Logs begegnen:
📄️ Demo-Projekt
Verpacktes Demo-Projekt für Windows.
📄️ Wie man die Leistung verbessert
Windows-Plattformen nutzen Vulkan für GPU-Beschleunigung, was den Erkennungsprozess erheblich beschleunigt. Auf anderen Plattformen verwendet das Plugin die CPU + Intrinsics zur Beschleunigung. Sie können die Leistung des Plugins jedoch weiter verbessern, indem Sie die folgenden Empfehlungen befolgen: