跳到主要内容

概述

Runtime Speech Recognizer 文档

Runtime Speech Recognizer 是一个跨平台插件,可实现实时离线语音识别。基于 Whisper OpenAI 技术,特别是 whisper.cpp 库,并支持在插件设置中预选的多种语言模型。

安装方法

首次运行时,请安装语言模型(将自动弹出对话框提示您完成此操作)。

基本描述

该插件使用基于 whisper.cpp 库的高级算法提供实时语音识别功能,该库采用宽松的 MIT 许可证。它能将输入的音频数据(以流或非流形式提供,如文件或音频数据缓冲区)与预训练的语言模型进行匹配。

插件根据不同平台使用不同的 GPU 加速方法:

  • Windows:使用 Vulkan 进行 GPU 加速,可显著提升识别速度
  • Mac 和 iOS:使用 Metal 进行 GPU 加速,性能与 Windows 的 Vulkan 加速相当甚至更快
  • 其他平台:使用 CPU + 内部指令集进行加速

其他资源