跳到主要内容

识别参数列表

这些参数只能在识别器未运行时设置。

这不是 Whisper 中可用参数的详尽列表。这里仅暴露了最重要的参数。如有必要,此列表将进行更新。

设置识别参数

设置语音识别的参数。如果您只想更改特定的参数,请考虑使用单独的设置函数。

设置流媒体默认值

设置适合流媒体语音识别的默认参数。

设置非流媒体默认值

设置适合非流媒体语音识别的默认参数。

设置线程数量

设置用于语音识别的线程数量。将此值设为 0 以使用核心数。

设置语言

设置用于语音识别的语言。必须由编辑器设置中选择的语言模型支持。

将语言设为自动将降低识别精度和性能。

设置翻译为英语

设置是否将识别的单词翻译为英语。如果为真,语言模型必须是多语言的。

设置步长

设置步长,以毫秒为单位。确定发送音频数据进行识别的频率。默认值为 5000 毫秒(5 秒)。

设置无上下文

设置是否使用过去的转录文本(如果有)作为解码器的初始提示。

设置单段输出

设置是否强制单段输出(适用于流媒体)。

设置最大词元数

设置每个文本段的最大词元数。使用 0 表示无限制。

设置加速

设置是否通过 Phase Vocoder 加快 2 倍识别速度。将其设为 false 以提高输出质量。

设置音频上下文大小

设置音频上下文的大小。将其设为 0 以提高输出质量。

设置增加温度

设置解码失败时,若未满足以下任一阈值时提高的温度。

设置熵阈值

设置熵阈值。如果压缩比高于此值,则将解码视为失败。类似于 OpenAI 的 "compression_ratio_threshold"

设置抑制空白

设置是否抑制输出中的空白。

设置抑制非语音词元

设置是否抑制输出中的非语音词元。

设置 Beam 的大小

设置 Beam 搜索中的 Beam 数量。仅当温度为零时适用。

设置初始提示

设置第一个窗口的初始提示。可以用来提供识别的上下文,使其更可能正确预测词语,例如自定义词汇或专有名词。

设置 GPU 设备 ID

设置用于语音识别的 GPU 设备 ID。默认值为 0。这对于具有多个 GPU 的系统非常有用,可以指定应该使用哪个 GPU 进行识别过程。如果指定的 GPU 设备 ID 无效,将使用第一个可用的 GPU 设备索引。