概述

Runtime Speech Recognizer 是一個跨平台插件,可實現即時、離線的語音辨識。該插件基於 Whisper OpenAI 技術,特別是 whisper.cpp 函式庫,並支援多種在插件設定中預先選取的語言模型,具備自動語言偵測功能。
如何安裝
首次執行時,請安裝語言模型(會出現對話框自動提示您執行此操作)。
基本說明
此插件使用基於 whisper.cpp 函式庫的先進演算法,提供即時語音辨識,該函式庫採用寬鬆的 MIT 授權條款。它會將輸入的音訊資料(以串流或非串流形式提供,例如檔案或音訊資料緩衝區)與預先訓練的語言模型進行比對。使用多語言模型時,插件可以自動偵測口語語言,並將此資訊與辨識出的文字一同提供。
插件會根據不同平台使用不同的 GPU 加速方法:
- Windows 和 Linux:使用 Vulkan 進行 GPU 加速,可顯著加快辨識過程
- Mac 和 iOS:使用 Metal 進行 GPU 加速,其效能可與 Windows 或 Linux 的 Vulkan 加速相媲美,甚至更快
- 其他平台:使用 CPU 搭配內建指令集進行加速(在原生執行時,例如 Android 或 Meta Quest 上,速度可能較慢)
其他資源
- 在 Fab 上取得
- 產品網站
- 下載示範 (Windows)
- 影片教學 (舊版影片)
- 插件支援與客製化開發:[email protected](為團隊與組織提供量身打造的解決方案)
Join our Discord
online · support