メインコンテンツまでスキップ

認識パラメータ一覧

これらのパラメータは、認識器が実行されていない時のみ設定できます。

この一覧はWhisperで利用可能なすべてのパラメータを網羅しているわけではありません。最も重要なものだけがここで公開されています。必要に応じて、このリストは更新されます。

認識パラメータの設定

音声認識用のパラメータを設定します。特定のパラメータのみ変更したい場合は、個別のセッタ関数を使用することを検討してください。

ストリーミングデフォルトの設定

ストリーミング音声認識に適したデフォルトパラメータを設定します。

非ストリーミングデフォルトの設定

非ストリーミング音声認識に適したデフォルトパラメータを設定します。

スレッド数の設定

音声認識に使用するスレッド数を設定します。この値を0に設定すると、コア数が使用されます。

言語の設定

音声認識に使用する言語を設定します。Editor設定で選択した言語モデルがサポートしている必要があります。

言語をAutoに設定すると、認識精度とパフォーマンスが低下します。

英語への翻訳設定

認識された単語を英語に翻訳するかどうかを設定します。trueの場合、言語モデルは多言語対応である必要があります。

ステップサイズの設定

ステップサイズ(ミリ秒単位)を設定します。音声データをどの頻度で認識に送るかを決定します。デフォルト値は5000ミリ秒(5秒)です。

No Contextの設定

過去の書き起こし(ある場合)をDecoderへの初期プロンプトとして使用するかどうかを設定します。

シングルセグメントの設定

単一セグメント出力を強制するかどうかを設定します(ストリーミングに便利です)。

最大トークン数の設定

テキストセグメントごとの最大トークン数を設定します。制限を設けない場合は0を使用してください。

Speed Upの設定

Phase Vocoderを使用して認識を2倍高速化するかどうかを設定します。品質を向上させたい場合はfalseに設定してください。

オーディオコンテキストサイズの設定

オーディオコンテキストのサイズを設定します。品質を向上させたい場合は0に設定してください。

Temperature To Increaseの設定

以下のいずれかのしきい値を満たさない場合にfallbackとしてTemperatureを増加させる値を設定します。

エントロピーしきい値の設定

エントロピーしきい値を設定します。圧縮率がこの値を超えた場合、デコードを失敗と見なします。OpenAIの "compression_ratio_threshold" と同様です。

空白抑制の設定

出力に空白が表示されるのを抑制するかどうかを設定します。

非音声トークン抑制の設定

出力に非音声トークンが表示されるのを抑制するかどうかを設定します。

ビームサイズの設定

ビームサーチのビーム数を設定します。temperatureが0のときのみ適用されます。

初期プロンプトの設定

最初のウィンドウ用の初期プロンプトを設定します。これを使って認識の文脈を与え、単語予測の精度を高めることができます(例:カスタム語彙や固有名詞など)。

GPUアクセラレーション設定

音声認識にGPUアクセラレーションを使用するかどうかを設定します(現時点ではWindowsのみ対応)。

GPUデバイスIDの設定

音声認識に使用するGPUデバイスIDを設定します。デフォルト値は0です。複数のGPUを持つシステムで、どのGPUを認識処理に使用するかを指定する際に便利です。指定されたGPUデバイスIDが無効な場合は、最初に利用可能なGPUデバイスインデックスが代わりに使用されます。