メインコンテンツまでスキップ

レコグニションパラメータリスト

これらのパラメータは、認識機が実行されていないときにのみ設定可能です。

このリストはWhisperで利用可能なパラメータの全リストではありません。ここでは最も重要なもののみを示しています。必要に応じて、このリストは更新されます。

認識パラメータの設定

音声認識のパラメータを設定します。特定のパラメータのみを変更したい場合は、個別のセッターメソッドを使用することを検討してください。

ストリーミングデフォルトの設定

ストリーミング音声認識に適したデフォルトパラメータを設定します。

非ストリーミングデフォルトの設定

非ストリーミング音声認識に適したデフォルトパラメータを設定します。

スレッド数の設定

音声認識に使用するスレッド数を設定します。この値を0に設定すると、コア数が使用されます。

言語の設定

音声認識に使用する言語を設定します。Editor設定で選択された言語モデルでサポートされている必要があります。

言語を自動に設定すると、認識精度とパフォーマンスが低下します。

英語への翻訳設定

認識した単語を英語に翻訳するかどうかを設定します。trueの場合、言語モデルは多言語対応である必要があります。

ステップサイズの設定

ステップサイズをミリ秒単位で設定します。どのくらい頻繁に音声データを認識に送信するかを決定します。デフォルト値は5000ms(5秒)です。

コンテクストの無効化設定

過去の転写(存在する場合)をデコーダーの初期プロンプトとして使用するかどうかを設定します。

単一セグメントの設定

単一セグメント出力を強制するかどうかを設定します(ストリーミングに役立ちます)。

最大トークン数の設定

テキストセグメントごとの最大トークン数を設定します。0を使用すると制限なしになります。

スピードアップの設定

Phase Vocoderを使用して2倍の速度で認識をスピードアップするかどうかを設定します。品質を向上させるためには、falseに設定します。

オーディオコンテクストサイズの設定

オーディオコンテクストのサイズを設定します。品質を向上させるためには、0に設定します。

温度の増加設定

デコードが以下のいずれかの閾値を満たさないときにバックフォールする際の温度を設定します。

エントロピー閾値の設定

エントロピー閾値を設定します。圧縮比がこの値より高い場合、デコードを失敗とみなします。OpenAIの「compression_ratio_threshold」と類似しています。

ブランク抑制の設定

出力にブランクが表示されるのを抑制するかどうかを設定します。

非音声トークン抑制の設定

出力に非音声トークンが表示されるのを抑制するかどうかを設定します。

ビームサイズの設定

ビームサーチ内のビーム数を設定します。温度がゼロのときのみ適用されます。

初期プロンプトの設定

最初のウィンドウの初期プロンプトを設定します。これを使用して認識にコンテクストを提供することで、単語を正しく予測しやすくするために使用できます。例:カスタムボキャブラリーや固有名詞。