跳到主要内容

推理参数

LLM 推理参数结构控制模型的加载和生成文本的方式。在加载模型时传递这些参数。本页描述每个参数及其效果。

参数参考

参数类型默认值范围描述
Max Tokensint325121–8192单次响应中生成的最大 token 数
Temperaturefloat0.70.0–2.0控制随机性。0.0 表示确定性。值越高,输出越具有创造性
Top Pfloat0.90.0–1.0核采样。只有累积概率超过此值的 token 才会被考虑
Top Kint32400–200将选择限制为最可能的 K 个 token。0 表示禁用
Repeat Penaltyfloat1.10.0–3.0对已经出现在输出中的 token 进行惩罚。1.0 表示无惩罚
Num GPU Layersint32-1-1–200卸载到 GPU 的模型层数。-1 表示自动。0 表示仅使用 CPU
Context Sizeint322048128–131072最大上下文窗口,以 token 计。较大的值会使用更多内存
System PromptFString"You are a helpful assistant."塑造模型行为的系统指令
Seedint32-1-1+用于可重现输出的随机种子。-1 表示随机
Num Threadsint3200–128用于生成的 CPU 线程数。0 表示自动

用法

推理参数在加载和异步节点上显示为一个结构体引脚。分解结构体来设置各个值:

蓝图中的推理参数

要获取一组默认参数作为起点,请使用 Get Default Inference Params

获取默认推理参数

平台推荐

移动端 / VR (Android, iOS, Meta Quest)

  • 上下文大小: 1024–2048
  • GPU 层数: 0 (仅 CPU) 除非设备确认支持 GPU 计算
  • 最大令牌数: 低于 256 以实现响应式交互
  • 线程数: 2–4 取决于设备

桌面端 (Windows, Mac, Linux)

  • 上下文大小: 2048–8192 适用于多数对话
  • GPU 层数: -1 (自动) 以在有可用时利用 GPU 加速
  • 线程数: 0 (自动)
  • 最大令牌数: 512–2048 用于更长的回复