跳到主要内容

概述

Runtime Speech Recognizer 是一个跨平台插件，支持实时、离线的语音识别。它基于 Whisper OpenAI 技术，特别是 whisper.cpp 库，并支持在插件设置中预选的多种语言模型，具备自动语言检测能力。

如何安装

首次运行时，需要安装语言模型（将自动弹出一个对话框提示您执行此操作）。

基本描述

该插件使用基于 whisper.cpp 库的高级算法提供实时语音识别，该库采用宽松的 MIT 许可证。它将传入的音频数据（以流或非流输入形式提供，例如文件或音频数据缓冲区）与预训练的语言模型进行匹配。当使用多语言模型时，插件可以自动检测口语语言，并在提供识别文本的同时提供此信息。

插件根据平台使用不同的 GPU 加速方法：

Windows 和 Linux：使用 Vulkan 进行 GPU 加速，这显著加快了识别过程
Mac 和 iOS：使用 Metal 进行 GPU 加速，其性能与 Windows 或 Linux 的 Vulkan 加速相当，甚至可能更快
其他平台：使用 CPU + 内部函数进行加速（可能会较慢，例如在 Android 或 Meta Quest 上原生运行时）

其他资源

在 Fab 上获取
产品网站
下载演示 (Windows)
Discord 支持服务器
视频教程
插件支持与定制开发：[email protected]（为团队和组织提供量身定制的解决方案）

如何安装
基本描述
其他资源