推論參數
LLM 推論參數結構控制模型載入和生成文字的方式。您在載入模型時傳遞這些參數。本頁面說明每個參數及其作用。
參數參考
| 參數 | 類型 | 預設值 | 範圍 | 說明 |
|---|---|---|---|---|
| Max Tokens | int32 | 512 | 1–8192 | 單一回應中生成的最大 token 數量 |
| Temperature | float | 0.7 | 0.0–2.0 | 控制隨機性。0.0 = 確定性。數值越高 = 輸出越有創意 |
| Top P | float | 0.9 | 0.0–1.0 | 核取樣。僅考慮累積機率超過此值的 token |
| Top K | int32 | 40 | 0–200 | 限制選擇範圍為前 K 個最可能的 token。0 = 停用 |
| Repeat Penalty | float | 1.1 | 0.0–3.0 | 懲罰已在輸出中出現的 token。1.0 = 無懲罰 |
| Num GPU Layers | int32 | -1 | -1–200 | 卸載至 GPU 的模型層數。-1 = 自動。0 = 僅 CPU |
| Context Size | int32 | 2048 | 128–131072 | 最大上下文視窗(以 token 計)。數值越大使用更多記憶體 |
| System Prompt | FString | "You are a helpful assistant." | — | 塑造模型行為的系統指令 |
| Seed | int32 | -1 | -1+ | 用於可重現輸出的隨機種子。-1 = 隨機 |
| Num Threads | int32 | 0 | 0–128 | 用於生成的 CPU 執行緒。0 = 自動 |
使用方式
- Blueprint
- C++
推論參數在載入和非同步節點上顯示為結構引腳。中斷結構以設定個別值:

若要取得一組預設參數作為起點,請使用 Get Default Inference Params:

// Creative writing
FLLMInferenceParams CreativeParams;
CreativeParams.MaxTokens = 1024;
CreativeParams.Temperature = 1.2f;
CreativeParams.TopP = 0.95f;
CreativeParams.TopK = 80;
CreativeParams.RepeatPenalty = 1.2f;
CreativeParams.SystemPrompt = TEXT("You are a creative storyteller.");
// Factual / deterministic
FLLMInferenceParams FactualParams;
FactualParams.MaxTokens = 256;
FactualParams.Temperature = 0.1f;
FactualParams.TopP = 0.5f;
FactualParams.TopK = 10;
FactualParams.SystemPrompt = TEXT("Answer questions concisely and accurately.");
// Mobile-optimized
FLLMInferenceParams MobileParams;
MobileParams.MaxTokens = 128;
MobileParams.ContextSize = 1024;
MobileParams.NumGPULayers = 0;
MobileParams.NumThreads = 4;
MobileParams.SystemPrompt = TEXT("You are a helpful assistant. Keep responses brief.");
// Get defaults programmatically
FLLMInferenceParams DefaultParams = URuntimeLocalLLM::GetDefaultInferenceParams();
平台建議
行動裝置 / VR(Android、iOS、Meta Quest)
- Context Size:1024–2048
- Num GPU Layers:0(僅限 CPU),除非裝置已確認支援 GPU 運算
- Max Tokens:低於 256 以確保回應靈敏
- Num Threads:2–4,視裝置而定
桌上型電腦(Windows、Mac、Linux)
- Context Size:2048–8192,適用於大多數對話
- Num GPU Layers:-1(自動),以在可用時利用 GPU 加速
- Num Threads:0(自動)
- Max Tokens:512–2048,適用於較長的回應