跳到主要内容

如何提升性能

该插件根据平台使用不同的GPU加速方法:Windows上使用Vulkan,Mac和iOS平台使用Metal,这能显著加快识别过程。在其他平台上,插件使用CPU+内部指令集进行加速。不过,您还可以通过以下建议进一步提升插件性能:

  1. 使用语音活动检测(VAD)

    强烈建议使用语音活动检测来提升识别器响应速度,即在用户停止说话时立即发送语音进行识别,而不是等待固定时间间隔。特别推荐使用Silero VAD实现此功能。具体实现方法请参阅语音活动检测文档

  2. 减小步长

    默认步长为5000毫秒(5秒),意味着在采集过程中每5秒识别一次音频数据。如果您希望更频繁地识别音频数据,可以减小步长,例如设为500毫秒(0.5秒)。但如果已启用VAD(通常建议使用,除非有特定需求需要固定间隔),则不建议依赖减小步长的方法。当在典型设置中使用VAD时,如语音激活命令识别带最终缓冲区处理的自动初始化语音识别,系统会在用户停止说话时立即进行识别。

  3. 使用更小的语言模型

    您可以考虑使用更小的语言模型,例如Tiny Quantized (Q5_1),以减少模型大小并提升性能。选择语言模型的方法请参见此处

  4. 优化识别状态管理

    处理麦克风输入时,应避免不必要地停止和启动语音识别器。与其频繁调用StopSpeechRecognitionStartSpeechRecognition(这需要重新分配资源),不如考虑直接控制音频输入。例如,使用可捕获声波时,通过StopCaptureStartCapture来管理音频流,同时保持识别线程处于活动状态。