跳到主要内容

语音活动检测

流式声波及其派生类型(例如可捕获声波)支持语音活动检测(VAD)。VAD 会过滤传入的音频数据,仅在检测到语音时填充内部缓冲区。

该插件提供两种 VAD 实现:

默认实现使用 libfvad,这是一个轻量级的语音活动检测库,可在 Runtime Audio Importer 支持的所有平台和引擎版本上高效运行。

基本用法

要在创建声波后启用 VAD,请使用 ToggleVAD 函数:

Toggle VAD 节点

启用 VAD 后,您可以随时重置它:

重置 VAD 节点

默认 VAD 设置

使用默认 VAD 提供程序时,您可以通过更改 VAD 模式来调整其攻击性:

设置 VAD 模式节点

mode 参数控制 VAD 过滤音频的激进程度。数值越高限制性越强,这意味着它们报告误报的可能性更低,但可能会遗漏一些语音。

VAD 提供程序

使用 ToggleVAD 函数启用 VAD 后,您可以根据需要选择不同的语音活动检测提供程序。默认提供程序是内置的,而其他提供程序(如 Silero VAD)可通过扩展插件获得。

设置 VAD 提供程序节点

Silero VAD 扩展

Silero VAD 使用神经网络提供更准确的语音检测。使用方法如下:

  1. 确保 Runtime Audio Importer 插件已安装在您的项目中

  2. 对于 UE 5.5 及更早版本: 在下载 Silero VAD 扩展插件之前,请确保您的项目中已禁用 NNERuntimeORT。在这些引擎版本上使用 Silero VAD 时,启用 NNERuntimeORT 可能会因冲突导致崩溃

  3. Google Drive 下载 Silero VAD 扩展插件

  4. 将下载的压缩包中的文件夹解压到项目的 Plugins 文件夹中(如果该文件夹不存在,请创建)

  5. 对于 UE 5.6 及更高版本: 编辑 RuntimeAudioImporterSileroVAD.uplugin 文件以添加 NNERuntimeORT 依赖项。在 "Plugins" 字段中,在 RuntimeAudioImporter 包含项之后,添加:

   ,
{
"Name": "NNERuntimeORT",
"Enabled": true
}
  1. 重新构建你的项目(此扩展需要 C++ 项目)
important
  • 默认的 VAD 适用于 Runtime Audio Importer 支持的所有引擎版本(UE 4.24, 4.25, 4.26, 4.27, 5.0, 5.1, 5.2, 5.3, 5.4, 5.5, 5.6 和 5.7)

  • Silero VAD 支持 Unreal Engine 4.27 及所有 UE5 版本(4.27, 5.0, 5.1, 5.2, 5.3, 5.4, 5.5, 5.6 和 5.7)

  • UE 5.5 及更早版本: 在使用 Silero VAD 之前必须禁用 NNERuntimeORT,以防止因插件冲突导致的崩溃

  • UE 5.6+ 要求: 从 Unreal Engine 5.6 开始,Silero VAD 扩展需要手动将 NNERuntimeORT 插件依赖项添加到 .uplugin 文件中

  • Silero VAD 适用于 Windows、Linux、Mac、Android(包括 Meta Quest)和 iOS

  • 此扩展以源代码形式提供,需要使用 C++ 项目

  • 有关如何手动构建插件的更多信息,请参阅构建插件教程

安装后,你可以使用 SetVADProvider 函数并指定 Silero 类提供程序来选择它作为你的 VAD 提供程序。

语音开始和结束检测

语音活动检测不仅检测语音的存在,还允许检测语音活动的开始和结束。这对于在播放或捕获过程中触发语音开始或结束的事件非常有用。

你可以通过调整参数(例如最小语音持续时间和静默持续时间)来自定义语音开始和结束检测的灵敏度。这些参数有助于微调检测,以避免误报,例如拾取短暂的噪音或语音之间过短的停顿。

最小语音持续时间

最小语音持续时间 参数设置了触发语音开始事件所需的最小连续语音活动量。这有助于过滤掉不应被视为语音的短暂噪音,确保只有持续的语音活动被识别。最小语音持续时间 的默认值为 300 毫秒

设置最小语音持续时间节点

静默时长

静默时长 参数设置了触发语音结束事件所需的静默持续时间。这可以防止在单词或句子之间的自然停顿期间过早结束语音检测。静默时长 的默认值为 500 毫秒

设置静默时长节点

绑定到语音委托

您可以在语音开始或结束时绑定到特定的委托。这对于基于语音活动触发自定义行为非常有用,例如启动或停止文本识别,或调整其他音频源的音量。

绑定事件到语音开始 绑定事件到语音结束

比较 VAD 提供商

默认 VAD (libfvad)

优势:

  • 轻量且高效
  • 在所有平台上运行
  • 资源占用极少
  • 适用于移动设备和低功耗设备

最适合:

  • 安静环境中的简单语音检测
  • 移动应用程序
  • 性能优先的项目
  • 需要通用平台支持的情况