Runtime Speech Recognizer

Runtime Speech Recognizer插件的文档。

📄️ 概述

Runtime Speech Recognizer 文档

Runtime Speech Recognizer 插件旨在从输入的音频数据中识别词语。它使用了稍作修改的 whisper.cpp 版本以适配引擎。使用该插件请遵循以下步骤：

选择、下载和打包模型

这些参数只能在识别器未运行时设置。

以下是可用语言模型支持的全部语言列表。

计算 Levenshtein 相似度

本指南讨论了RuntimeSpeechRecognizer插件中两种常见的卡顿来源，并提供了实际解决方案，以减轻性能影响。

大多数问题与语言模型的阶段有关，这可能在打包构建中引发问题。具体而言，您可能会遇到以下日志：

适用于 Windows 的打包演示项目。

Windows 平台使用 Vulkan 进行 GPU 加速，这显著提升了识别过程的速度。在其他平台上，该插件使用 CPU + intrinsics 进行加速。然而，您可以通过以下建议进一步提高插件的性能：