跳到主要内容

识别参数列表

这些参数只能在识别器未运行时设置。

这不是 Whisper 可用参数的详尽列表。这里只公开了最重要的一些参数。如有必要,将会更新本列表。

设置识别参数

设置语音识别的参数。如果只需更改特定参数,请考虑使用各自的 setter 函数。

设置流式默认值

设置适用于流式语音识别的默认参数。

设置非流式默认值

设置适用于非流式语音识别的默认参数。

设置线程数量

设置用于语音识别的线程数量。将此值设为 0 可使用处理器核心数。

设置语言

设置用于语音识别的语言。该语言必须在编辑器设置中被选定的语言模型支持。

将语言设置为 Auto 会降低识别的准确率和性能。

设置翻译为英文

设置是否将识别出的词语翻译为英文。如果为 true,语言模型必须为多语言模型。

设置步长

设置步长(毫秒)。决定多长时间发送一次音频数据进行识别。默认值为 5000 毫秒(5 秒)。

设置无上下文

设置是否使用过去的转录内容(如果有的话)作为解码器的初始提示。

设置单段输出

设置是否强制输出单段内容(对于流式识别非常有用)。

设置最大 tokens 数

设置每个文本片段的最大 tokens 数。使用 0 表示无限制。

设置加速

设置是否使用 Phase Vocoder 加速 2 倍进行识别。如需提高输出质量,请设为 false

设置音频上下文大小

设置音频上下文的大小。如需提高输出质量,请设为 0

设置温度递增

设置解码因未达到下列阈值而回退时温度的递增值。

设置熵阈值

设置熵阈值。如果压缩比高于此值,则视为解码失败。类似于 OpenAI 的“compression_ratio_threshold”。

设置抑制空白

设置是否抑制输出结果中的空白内容。

设置抑制非语音 tokens

设置是否抑制输出结果中的非语音 tokens。

设置 beam 大小

设置 beam search 中的 beam 数量。仅在温度为零时适用。

设置初始提示

为第一个窗口设置初始提示。这可以用于为识别提供上下文,提高正确预测单词的概率,例如自定义词汇或专有名词。

设置 GPU 加速

设置是否启用 GPU 加速进行语音识别(目前仅适用于 Windows)。

设置 GPU 设备 ID

设置用于语音识别的 GPU 设备 ID。默认值为 0。对于有多块 GPU 的系统,该参数可用于指定应使用哪块 GPU 进行识别。如果指定的 GPU 设备 ID 无效,将使用首个可用的 GPU 设备索引。