認識パラメータ一覧
これらのパラメータは、認識器が実行されていない時のみ設定できます。
この一覧はWhisperで利用可能なすべてのパラメータを網羅しているわけではありません。最も重要なものだけがここで公開されています。必要に応じて、このリストは更新されます。
認識パラメータの設定
音声認識用のパラメータを設定します。特定のパラメータのみ変更したい場合は、個別のセッタ関数を使用することを検討してください。
ストリーミングデフォルトの設定
ストリーミング音声認識に適したデフォルトパラメータを設定します。
非ストリーミングデフォルトの設定
非ストリーミング音声認識に適したデフォルトパラメータを設定します。
スレッド数の設定
音声認識に使用するスレッド数を設定します。この値を0に設定すると、コア数が使用されます。
言語の設定
音声認識に使用する言語を設定します。Editor設定で選択した言語モデルがサポートしている必要があります。
言語をAutoに設定すると、認識精度とパフォーマンスが低下します。
英語への翻訳設定
認識された単語を英語に翻訳するかどうかを設定します。trueの場合、言語モデルは多言語対応である必要があります。
ステップサイズの設定
ステップサイズ(ミリ秒単位)を設定します。音声データをどの頻度で認識に送るかを決定します。デフォルト値は5000ミリ 秒(5秒)です。
No Contextの設定
過去の書き起こし(ある場合)をDecoderへの初期プロンプトとして使用するかどうかを設定します。
シングルセグメントの設定
単一セグメント出力を強制するかどうかを設定します(ストリーミングに便利です)。
最大トークン数の設定
テキストセグメントごとの最大トークン数を設定します。制限を設けない場合は0を使用してください。
Speed Upの設定
Phase Vocoderを使用して認識を2倍高速化するかどうかを設定します。品質を向上させたい場合はfalse
に設定してください。
オーディオコンテキストサイズの設定
オーディオコンテキストのサイズを設定します。品質を向上させたい場合は0
に設定してください。
Temperature To Increaseの設定
以下のいずれかのしきい値を満たさない場合にfallbackとしてTemperatureを増加させる値を設定します。
エントロピーしきい値の設定
エントロピーしきい値を設定します。圧縮率がこの値を超えた場合、デコードを失敗と見なします。OpenAIの "compression_ratio_threshold" と同様です。
空白抑制の設定
出力に空白が表示されるのを抑制するかどうかを設定します。
非音声トークン抑制の設定
出力に非音声トークンが表示されるのを抑制するかどうかを設定します。
ビームサイズの設定
ビームサーチのビーム数を設定します。temperatureが0のときのみ適用されます。
初期プロンプトの設定
最初のウィンドウ用の初期プロンプトを設定します。これを使って認識の文脈を与え、単語予測の精度を高めることができます(例:カスタム語彙や固有名詞など)。
GPUアクセラレーション設定
音声認識にGPUアクセラレーションを使用するかどうかを設定します(現時点ではWindowsのみ対応)。
GPUデバイスIDの設定
音声認識に使用するGPUデバイスIDを設定します 。デフォルト値は0です。複数のGPUを持つシステムで、どのGPUを認識処理に使用するかを指定する際に便利です。指定されたGPUデバイスIDが無効な場合は、最初に利用可能なGPUデバイスインデックスが代わりに使用されます。