跳至主要内容

概述

Runtime Speech Recognizer 文件

Runtime Speech Recognizer 是一個跨平台插件,可實現即時、離線的語音辨識。該插件基於 Whisper OpenAI 技術,特別是 whisper.cpp 函式庫,並支援多種在插件設定中預先選取的語言模型,具備自動語言偵測功能。

如何安裝

首次執行時,請安裝語言模型(會出現對話框自動提示您執行此操作)。

基本說明

此插件使用基於 whisper.cpp 函式庫的先進演算法,提供即時語音辨識,該函式庫採用寬鬆的 MIT 授權條款。它會將輸入的音訊資料(以串流或非串流形式提供,例如檔案或音訊資料緩衝區)與預先訓練的語言模型進行比對。使用多語言模型時,插件可以自動偵測口語語言,並將此資訊與辨識出的文字一同提供。

插件會根據不同平台使用不同的 GPU 加速方法:

  • Windows 和 Linux:使用 Vulkan 進行 GPU 加速,可顯著加快辨識過程
  • Mac 和 iOS:使用 Metal 進行 GPU 加速,其效能可與 Windows 或 Linux 的 Vulkan 加速相媲美,甚至更快
  • 其他平台:使用 CPU 搭配內建指令集進行加速(在原生執行時,例如 Android 或 Meta Quest 上,速度可能較慢)

其他資源

Join our Discord
online · support