如何提升效能
此插件根據不同平台使用不同的 GPU 加速方法:在 Windows 和 Linux 上使用 Vulkan,在 Mac 和 iOS 平台上使用 Metal,這些方法能顯著加快辨識過程。在其他平台上,插件則使用 CPU 搭配內建指令集進行加速。不過,您可以透過以下建議進一步提升插件的效能:
-
使用語音活動偵測 (VAD)
強烈建議使用語音活動偵測來提升辨識器的回應速度,讓系統能在使用者停止說話時立即將語音送去辨識,而非等待固定的時間間隔。特別推薦使用 Silero VAD 來達成此目的。有關詳細的實作說明,請參閱語音活動偵測文件。
-
減少步長
預設情況下,步長為 5000 毫秒(5 秒),這表示在錄製過程中,音訊資料每 5 秒會被辨識一次。如果您希望更頻繁地辨識音訊資料,可以減少步長,例如設定為 500 毫秒(0.5 秒)。然而,如果 VAD 已啟用(除非您有需要固定間隔的特定需求,否則通常建議啟用),則不建議依賴減少步長。在典型的設定中,例如語音啟動指令辨識或自動初始化語音辨識與最終緩衝區處理,當使用者停止說話時,語音就會立即被辨識。
-
使用較小的語言模型
您可以考慮使用較小的語言模型,例如
Tiny Quantized (Q5_1),以減少模型大小並提升效能。關於如何選擇語言模型的說明,請參閱此處。 -
最佳化辨識狀態管理
在使用麥克風輸入時,應避免不必要地停止和啟動語音辨識器。與其頻繁呼叫
StopSpeechRecognition和StartSpeechRecognition(這需要重新分配資源),不如考慮直接控制音訊輸入。例如,使用可捕捉音波時,請使用StopCapture和StartCapture來管理音訊流程,同時保持辨識執行緒處於活動狀態。