跳至主要内容

推論參數

LLM 推論參數結構控制模型載入和生成文字的方式。您在載入模型時傳遞這些參數。本頁面說明每個參數及其作用。

參數參考

參數類型預設值範圍說明
Max Tokensint325121–8192單一回應中生成的最大 token 數量
Temperaturefloat0.70.0–2.0控制隨機性。0.0 = 確定性。數值越高 = 輸出越有創意
Top Pfloat0.90.0–1.0核取樣。僅考慮累積機率超過此值的 token
Top Kint32400–200限制選擇範圍為前 K 個最可能的 token。0 = 停用
Repeat Penaltyfloat1.10.0–3.0懲罰已在輸出中出現的 token。1.0 = 無懲罰
Num GPU Layersint32-1-1–200卸載至 GPU 的模型層數。-1 = 自動。0 = 僅 CPU
Context Sizeint322048128–131072最大上下文視窗(以 token 計)。數值越大使用更多記憶體
System PromptFString"You are a helpful assistant."塑造模型行為的系統指令
Seedint32-1-1+用於可重現輸出的隨機種子。-1 = 隨機
Num Threadsint3200–128用於生成的 CPU 執行緒。0 = 自動

使用方式

推論參數在載入和非同步節點上顯示為結構引腳。中斷結構以設定個別值:

Blueprint 中的推論參數

若要取得一組預設參數作為起點,請使用 Get Default Inference Params

取得預設推論參數

平台建議

行動裝置 / VR(Android、iOS、Meta Quest)

  • Context Size:1024–2048
  • Num GPU Layers:0(僅限 CPU),除非裝置已確認支援 GPU 運算
  • Max Tokens:低於 256 以確保回應靈敏
  • Num Threads:2–4,視裝置而定

桌上型電腦(Windows、Mac、Linux)

  • Context Size:2048–8192,適用於大多數對話
  • Num GPU Layers:-1(自動),以在可用時利用 GPU 加速
  • Num Threads:0(自動)
  • Max Tokens:512–2048,適用於較長的回應