メインコンテンツまでスキップ

推論パラメータ

LLM推論パラメータ構造は、モデルの読み込みとテキスト生成の方法を制御します。これらのパラメータはモデルを読み込む際に渡します。このページでは、各パラメータとその効果について説明します。

パラメータリファレンス

パラメータTypeデフォルト範囲説明
最大トークン数int325121~81921回の応答で生成する最大トークン数
温度float0.70.0~2.0ランダム性を制御します。0.0 = 決定論的。値が高いほど、より創造的な出力になります。
Top Pfloat0.90.0~1.0Nucleusサンプリング。累積確率がこの値を超えるトークンのみが考慮されます。
Top Kint32400~200上位K個の最も確率の高いトークンに選択を制限します。0 = 無効
繰り返しペナルティfloat1.10.0~3.0出力に既に出現したトークンにペナルティを課します。1.0 = ペナルティなし
GPUレイヤー数int32-1-1~200GPUにオフロードするモデルレイヤー。-1 = 自動。0 = CPUのみ。
コンテキストサイズint322048128~131072最大コンテキストウィンドウ(トークン数)。値を大きくすると、より多くのメモリを使用します。
システムプロンプトFString「あなたは役立つアシスタントです。」システムの動作を形成するシステム指示
シードint32-1-1+出力を再現可能にするためのランダムシード。-1 = ランダム
スレッド数int3200~128生成に使用するCPUスレッド数。0 = 自動

使用方法

推論パラメータは、ロードノードおよび非同期ノード上で構造体ピンとして表示されます。構造体を分解して個別の値を設定します。

Inference Parameters in Blueprint

デフォルトのパラメータセットを開始点として取得するには、Get Default Inference Params を使用します。

Get Default Inference Params

プラットフォームの推奨事項

モバイル / VR(Android、iOS、Meta Quest)

  • コンテキストサイズ: 1024~2048
  • GPUレイヤー数: デバイスがGPUコンピュート対応を確認していない限り、0(CPUのみ)
  • 最大トークン数: 応答性の高いインタラクションには256未満
  • スレッド数: デバイスに応じて2~4

デスクトップ(Windows、Mac、Linux)

  • コンテキストサイズ: ほとんどの会話で2048~8192
  • GPUレイヤー数: -1(自動)でGPUアクセラレーションを利用可能な場合に活用
  • スレッド数: 0(自動)
  • 最大トークン数: 長い応答には512~2048

長時間の会話

アプリケーションが長時間のセッション(NPCの対話、永続的なアシスタント、ロールプレイ)にわたって会話を維持する場合は、単にコンテキストサイズを増やすのではなく、自動要約と組み合わせることを検討してください。自動要約を有効にした2048~4096の適度なコンテキストサイズは、レイテンシとメモリ使用量を安定させます。一方、大きなコンテキストウィンドウでは、生成ごとに徐々に処理が遅くなります。詳細は自動コンテキスト要約をご覧ください。