Saltar al contenido principal

Parámetros de inferencia

La estructura LLM Inference Parameters controla cómo el modelo se carga y genera texto. Estos parámetros se pasan al cargar un modelo. Esta página describe cada parámetro y su efecto.

Referencia de parámetros

ParámetroTipoPredeterminadoRangoDescripción
Tokens máximosint325121–8192Número máximo de tokens a generar en una única respuesta
Temperaturafloat0.70.0–2.0Controla la aleatoriedad. 0.0 = determinista. Valores más altos = salida más creativa
Top Pfloat0.90.0–1.0Muestreo por núcleo. Solo se consideran los tokens cuya probabilidad acumulada supera este valor
Top Kint32400–200Limita la selección a los K tokens más probables. 0 = desactivado
Penalización por repeticiónfloat1.10.0–3.0Penaliza los tokens que ya aparecen en la salida. 1.0 = sin penalización
Núm. de capas GPUint32-1-1–200Capas del modelo a descargar en la GPU. -1 = automático. 0 = solo CPU
Tamaño de contextoint322048128–131072Ventana de contexto máxima en tokens. Valores más altos usan más memoria
Prompt del sistemaFString"Eres un asistente útil."Instrucción del sistema que define el comportamiento del modelo
Semillaint32-1-1+Semilla aleatoria para salida reproducible. -1 = aleatorio
Núm. de hilosint3200–128Hilos de CPU para la generación. 0 = automático

Uso

Los parámetros de inferencia aparecen como un pin de estructura en los nodos de carga y asíncronos. Rompe la estructura para establecer valores individuales:

Parámetros de inferencia en Blueprint

Para obtener un conjunto de parámetros predeterminados como punto de partida, usa Get Default Inference Params:

Get Default Inference Params

Recomendaciones de Plataforma

Móvil / RV (Android, iOS, Meta Quest)

  • Tamaño de Contexto: 1024–2048
  • Num GPU Layers: 0 (solo CPU) a menos que el dispositivo tenga soporte de computación GPU confirmado
  • Max Tokens: Por debajo de 256 para interacciones receptivas
  • Num Threads: 2–4 dependiendo del dispositivo

Escritorio (Windows, Mac, Linux)

  • Tamaño de Contexto: 2048–8192 para la mayoría de conversaciones
  • Num GPU Layers: -1 (auto) para aprovechar la aceleración de GPU cuando esté disponible
  • Num Threads: 0 (auto)
  • Max Tokens: 512–2048 para respuestas más largas