识别参数列表
这些参数只能在识别器未运行时设置。
这不是 Whisper 可用参数的详尽列表。这里只公开了最重要的一些参数。如有必要,将会更新本列表。
设置识别参数
设置语音识别的参数。如果只需更改特定参数,请考虑使用各自的 setter 函数。
设置流式默认值
设置适用于流式语音识别的默认参数。
设置非流式默认值
设置适用于非流式语音识别的默认参数。
设置线程数量
设置用于语音识别的线程数量。将此值设为 0 可使用处理器核心数。
设置语言
设置用于语音识别的语言。该语言必须在编辑器设置中被选定的语言模型支持。
将语言设置为 Auto 会降低识别的准确率和性能。
设置翻译为英文
设置是否将识别出的词语翻译为英文。如果为 true,语言模型必须为多语言模型。
设置步长
设置步长(毫秒)。决定多长时间发送一次音频数据进行识别。默认值为 5000 毫秒(5 秒)。
设置无上下文
设置是否使用过去的转录内容(如果有的话)作为解码器的初始提示。
设置单段输出
设置是否强制输出单段内容(对于流式识别非常有用)。
设置最大 tokens 数
设置每个文本片段的最大 tokens 数。使用 0 表示无限制。
设置加速
设置是否使用 Phase Vocoder 加速 2 倍进行识别。如需提高输出质量,请设为 false
。
设置音频上下文大小
设置音频上下文的大小。如需提高输出质量,请设为 0
。
设置温度递增
设置解码因未达到下列阈值而回退时温度的递增值。
设置熵阈值
设置熵阈值。如果压缩比高于此值,则视为解码失败。类似于 OpenAI 的“compression_ratio_threshold”。
设置抑制空白
设置是否抑制输出结果中的空白内容。
设置抑制非语音 tokens
设置是否抑制输出结果中的非语音 tokens。
设置 beam 大小
设置 beam search 中的 beam 数量。仅在温度为零时适用。
设置初始提示
为第一个窗口设置初始提示。这可以用于为识别提供上下文,提高正确预测单词的概率,例如自定义词汇或专有名词。
设置 GPU 加速
设置是否启用 GPU 加速进行语音识别(目前仅适用于 Windows)。
设置 GPU 设备 ID
设置用于语音识别的 GPU 设备 ID。默认值为 0。对于有多块 GPU 的系统,该参数可用于指定应使用哪块 GPU 进行识别。如果指定的 GPU 设备 ID 无效,将使用首个可用的 GPU 设备索引。