認識パラメータ一覧
これらのパラメータは、認識器が実行中でない場合にのみ設定できます。
これは Whisper で利用可能なパラメータの完全なリストではありません。最も重要なもののみがここで公開されています。必要に応じて、このリストは更新されます。
認識パラメータの設定

音声認識のパラメータを設定します。特定のパラメータのみを変更したい場合は、個別のセッター関数の使用を検討してください。
ストリーミングデフォルトの設定

ストリーミング音声認識に適したデフォルトパラメータを設定します。
非ストリーミングデフォルトの設定

非ストリーミング音声認識に適したデフォルトパラメータを設定します。
スレッド数の設定

音声認識に使用するスレッドの数を設定します。コア数を使用するには、この値を 0 に設定します。
言語の設定

音声認識に使用する言語を設定します。エディタ設定で選択された言語モデルでサポートされている必要があります。
言語を Auto に設定すると、認識精度とパフォーマンスが低下します。
検出された言語の取得

最後の認識から検出された言語を取得します。言語を列挙値として返します。
注: この関数は認識が実行された後にのみ機能します。言語検出が失敗したか、実行されなかった場合は Auto を返します。これは、Auto 言語検出を使用して実際にどの言語が認識されたかを特定する場合に特に便利です。
言語コードの取得

言語の列挙値を言語コード文字列に変換します(例: En -> "en", Fr -> "fr", De -> "de")。
言語完全名の取得

言語の列挙値を完全な言語名に変換します(例: En -> "English", Fr -> "French", De -> "German")。
英語への翻訳の設定

認識された単語を英語に翻訳するかどうかを設定します。true の場合、言語モデルは多言語対応である必要があります。
ステップサイズの設定

ミリ秒単位でステップサイズを設定します。認識のためにオーディオデータを送信する頻度を決定します。デフォルト値は 5000 ミリ秒(5 秒)です。
コンテキスト無効の設定

過去の文字起こし(存在する場合)をデコーダーの初期プロンプトとして使用するかどうかを設定します。
単一セグメントの設定

単一セグメント出力を強制するかどうかを設定します(ストリーミングに便利です)。
最大トークンの設定
テキストセグメントごとの最大トークン数を設定します。0を設定すると制限なしとなります。
速度向上の設定

フェーズボコーダーを使用して認識速度を2倍に高速化するかどうかを設定します。出力品質を向上させるにはfalseに設定してください。
オーディオコンテキストサイズの設定

オーディオコンテキストのサイズを設定します。出力品質を向上させるには0に設定してください。
増加温度の設定

以下のいずれかの閾値を満たさない場合にフォールバックする際の増加温度を設定します。
エントロピー閾値の設定

エントロピー閾値を設定します。圧縮率がこの値より高い場合、デコードは失敗したものとして扱われます。OpenAIの「compression_ratio_threshold」に類似しています。
空白抑制の設定

出力に空白が表示されるのを抑制するかどうかを設定します。
非音声トークン抑制の設定

出力に非音声トークンが表示されるのを抑制するかどうかを設定します。
ビームサイズの設定

ビームサーチにおけるビームの数を設定します。温度がゼロの場合にのみ適用されます。
初期プロンプトの設定

最初のウィンドウに対する初期プロンプトを設定します。これは認識にコンテキストを提供するために使用でき、単語を正しく予測する可能性を高めることができます(例:カスタム語彙や固有名詞)。
GPUアクセラレーションの設定

音声認識にGPUアクセラレーションを使用するかどうかを設定します(現在はWindowsでのみ適用可能)。
GPUデバイスIDの設定

音声認識に使用するGPUデバイスIDを設定します。デフォルト値は0です。これは複数のGPUを搭載したシステムで、どのGPUを認識プロセスに使用するかを指定する場合に便利です。指定されたGPUデバイスIDが無効な場合、最初に利用可能なGPUデバイスインデックスが代わりに使用されます。