概述

Runtime Speech Recognizer 是一个跨平台插件,能够实现实时、离线的语音识别。它基于 Whisper OpenAI 技术,特别是 whisper.cpp 库,并支持在插件设置中预选多种语言模型,具备自动语言检测功能。
如何安装
首次运行时,请安装语言模型(将自动弹出一个对话框提示您执行此操作)。
基本描述
该插件使用基于 whisper.cpp 库的高级算法提供实时语音识别,该库采用宽松的 MIT 许可证。它将传入的音频数据(以流或非流输入形式提供,例如文件或音频数据缓冲区)与预训练的语言模型进行匹配。当使用多语言模型时,插件可以自动检测口语语言,并在识别文本的同时提供此信息。
插件根据平台使用不同的 GPU 加速方法:
- Windows:使用 Vulkan 进行 GPU 加速,这显著加快了识别过程
- Mac 和 iOS:使用 Metal 进行 GPU 加速,提供与 Windows Vulkan 加速相当甚至更快的性能
- 其他平台:使用 CPU + 内部函数进行加速(可能较慢,例如在 Android 或 Meta Quest 上原生运行时)
附加资源
- 在 Fab 上获取
- 产品网站
- 下载演示(Windows)
- Discord 支持服务器
- 视频教程
- 定制开发:[email protected](为团队和组织提供量身定制的解决方案)