如何使用该插件
Runtime Speech Recognizer 插件旨在从输入的音频数据中识别词语。它使用了稍作修改的 whisper.cpp 版本以适配引擎。使用该插件请遵循以下步骤:
编辑器端
- 根据此处的说明为项目选择合适的语言模型。
运行时端
- 创建语音识别器并设置必要参数(CreateSpeechRecognizer,参数说明见此处)。
- 绑定所需的委托(OnRecognitionFinished、OnRecognizedTextSegment 和 OnRecognitionError)。
- 启动语音识别(StartSpeechRecognition)。
- 处理音频数据并等待委托返回结果(ProcessAudioData)。
- 在需要时停止语音识别器(例如在 OnRecognitionFinished 广播后)。
该插件支持 32位浮点交错PCM格式 的输入音频。虽然它能与 Runtime Audio Importer 良好配合,但并未直接依赖该插件。
识别参数
插件支持流式和非流式音频数据识别。要针对特定用例调整识别参数,可调用 SetStreamingDefaults
或 SetNonStreamingDefaults
。此外,您还可以手动设置单个参数,如线程数、步长、是否将输入语言翻译为英语以及是否使用历史转录。完整参数列表请参阅识别参数列表。
性能优化
关于如何优化插件性能的技巧,请参考如何提升性能章节。