メインコンテンツまでスキップ

認識パラメータリスト

これらのパラメータは、Recognizerが動作していない状態でのみ設定できます。

Whisperで利用可能なパラメータの全リストではありません。ここでは、最も重要なもののみを公開しています。必要に応じてこのリストは更新されます。

認識パラメータの設定

音声認識のパラメータを設定します。特定のパラメータのみを変更したい場合は、個別のsetter関数の使用を検討してください。

ストリーミングデフォルトの設定

ストリーミング音声認識に適したデフォルトパラメータを設定します。

非ストリーミングデフォルトの設定

非ストリーミング音声認識に適したデフォルトパラメータを設定します。

スレッド数の設定

音声認識に使用するスレッドの数を設定します。この値を0に設定すると、コア数を使用します。

言語の設定

音声認識に使用する言語を設定します。Editor設定で選択された言語モデルがサポートするものである必要があります。

言語をAutoに設定すると、認識の精度とパフォーマンスが低下します。

英語への翻訳設定

認識された単語を英語に翻訳するかどうかを設定します。trueにするには、言語モデルが多言語対応でなければなりません。

ステップサイズの設定

ステップサイズをミリ秒単位で設定します。音声データを認識に送る頻度を決定します。デフォルト値は5000 ms(5秒)です。

コンテキストなしの設定

デコーダーの初期プロンプトとして過去の転写(あれば)を利用するかどうかを設定します。

シングルセグメント設定

シングルセグメント出力を強制するかどうかを設定します(ストリーミングに有用です)。

最大トークン数の設定

テキストセグメントあたりの最大トークン数を設定します。制限なしの場合は0を使用します。

スピードアップの設定

Phase Vocoderを使用して認識を2倍速にするかどうかを設定します。falseに設定すると出力の品質が向上します。

オーディオコンテキストサイズの設定

オーディオコンテキストのサイズを設定します。0に設定すると出力の品質が向上します。

増加する温度の設定

下記のしきい値のいずれかを満たさない場合にデコードに失敗した場合、増加させる温度を設定します。

エントロピーしきい値の設定

エントロピーしきい値を設定します。この値よりも圧縮比が高い場合、デコードを失敗と見なします。OpenAIの「compression_ratio_threshold」に似ています。

空白抑制の設定

出力に空白が表示されるかどうかを抑制するかどうかを設定します。

非音声トークン抑制の設定

出力に非音声トークンが表示されるかどうかを抑制するかどうかを設定します。

ビームサイズの設定

ビームサーチでのビームの数を設定します。温度がゼロの場合にのみ適用されます。

初期プロンプトの設定

最初のウィンドウの初期プロンプトを設定します。これを使用して、認識にコンテキストを提供し、単語を正しく予測する確率を高めることができます。例:カスタムボキャブラリーや固有名詞。

GPUデバイスIDの設定

音声認識に使用するGPUデバイスIDを設定します。デフォルト値は0です。複数のGPUを有するシステムにおいて、どのGPUを使用するかを指定するのに有用です。指定されたGPUデバイスIDが無効な場合、最初に利用可能なGPUデバイスインデックスが代わりに使用されます。