跳到主要内容

推理参数

LLM推理参数结构控制模型的加载和文本生成方式。您可以在加载模型时传入这些参数。本页面将逐一说明每个参数及其作用。

参数参考

参数Type默认范围描述
最大令牌数int325121–8192单次响应中生成的最大令牌数
温度浮点数0.70.0–2.0控制随机性。0.0 = 确定性输出。数值越高,输出越具创造性。
Top P浮点数0.90.0–1.0核采样。仅考虑累积概率超过此值的令牌。
Top Kint32400–200将选择限制为概率最高的前K个词元。0 = 禁用
重复惩罚浮点数1.10.0–3.0对输出中已出现的标记进行惩罚。1.0 = 无惩罚
GPU 层数int32-1-1–200模型层数卸载到GPU。-1 = 自动。0 = 仅CPU。
上下文大小int322048128–131072最大上下文窗口(以Token计)。数值越大,内存占用越高。
系统提示FString“你是一个有用的助手。”塑造模型行为的系统指令
种子int32-1-1+用于可重复输出的随机种子。-1 = 随机
线程数int3200–128生成所用的CPU线程数。0 = 自动

用法

推理参数在加载节点和异步节点上显示为结构体引脚。断开结构体以设置各个值。

Inference Parameters in Blueprint

要获取一组默认参数作为起点,请使用 Get Default Inference Params

Get Default Inference Params

平台推荐

移动端/VR(安卓、iOS、Meta Quest)

  • 上下文大小:1024–2048
  • GPU 层数:0(仅限 CPU),除非设备已确认支持 GPU 计算
  • 最大令牌数:低于 256 以实现响应式交互
  • 线程数:2–4,具体取决于设备

桌面端(Windows、Mac、Linux)

  • 上下文大小:大多数对话为 2048–8192
  • GPU 层数:-1(自动)以在可用时利用 GPU 加速
  • 线程数:0(自动)
  • 最大令牌数:512–2048 用于较长回复

长时间对话

如果你的应用需要维持长时间对话(如NPC对话、持久助手、角色扮演),建议将上下文大小与自动摘要功能配合使用,而非单纯增大Context Size。将Context Size保持在2048–4096的适中范围并启用自动摘要,可稳定控制延迟和内存占用,而更大的上下文窗口会导致每次生成速度逐渐变慢。详见自动上下文摘要