メインコンテンツまでスキップ

推論パラメータ

LLM推論パラメータ構造体は、モデルのロードとテキスト生成の方法を制御します。モデルをロードするときにこれらのパラメータを渡します。このページでは、各パラメータとその効果について説明します。

パラメータリファレンス

パラメータデフォルト範囲説明
最大トークン数int325121–81921回の応答で生成するトークンの最大数
温度float0.70.0–2.0ランダム性を制御します。0.0 = 決定的。値が高いほど創造的な出力になります
Top Pfloat0.90.0–1.0Nucleusサンプリング。この値を超える累積確率を持つトークンのみが候補となります
Top Kint32400–200最も確率の高い上位K個のトークンに選択肢を限定します。0 = 無効
繰り返しペナルティfloat1.10.0–3.0すでに出力に現れたトークンにペナルティを与えます。1.0 = ペナルティなし
GPUレイヤー数int32-1-1–200GPUにオフロードするモデルレイヤー数。-1 = 自動。0 = CPUのみ
コンテキストサイズint322048128–131072トークン単位の最大コンテキストウィンドウ。より大きな値はより多くのメモリを使用します
システムプロンプトFString"You are a helpful assistant."モデルの動作を形作るシステム指示
シードint32-1-1以上再現可能な出力のためのランダムシード。-1 = ランダム
スレッド数int3200–128生成に使用するCPUスレッド数。0 = 自動

使用方法

推論パラメータは、ロードノードや非同期ノードの構造体ピンとして表示されます。構造体を分割して個別の値を設定します。

Blueprintの推論パラメータ

デフォルトのパラメータセットを開始点として取得するには、Get Default Inference Params を使用します。

Get Default Inference Params

プラットフォームの推奨設定

モバイル / VR (Android, iOS, Meta Quest)

  • コンテキストサイズ: 1024–2048
  • GPUレイヤー数: 0 (CPUのみ) ただし、デバイスがGPUコンピュートをサポートしていることが確認されている場合を除く
  • 最大トークン数: 応答性の高い対話のために256未満
  • スレッド数: デバイスに応じて2~4

デスクトップ (Windows, Mac, Linux)

  • コンテキストサイズ: ほとんどの会話では2048~8192
  • GPUレイヤー数: -1 (自動) 利用可能な場合にGPUアクセラレーションを活用するため
  • スレッド数: 0 (自動)
  • 最大トークン数: 長めの応答には512~2048