Saltar al contenido principal

Parámetros de inferencia

La estructura de Parámetros de Inferencia del LLM controla cómo el modelo carga y genera texto. Pasas estos parámetros al cargar un modelo. Esta página describe cada parámetro y su efecto.

Referencia de parámetros

ParámetroTypePredeterminadoRangoDescripción
Tokens Máximosint325121–8192Número máximo de tokens a generar en una sola respuesta
Temperaturaflotante0.70.0–2.0Controla la aleatoriedad. 0.0 = determinista. Valores más altos = salida más creativa.
Top Pflotante0.90.0–1.0Muestreo de núcleo. Solo se consideran los tokens cuya probabilidad acumulada supera este valor.
Top Kint32400–200Limita la selección a los K tokens más probables. 0 = desactivado.
Penalización por Repeticiónflotante1.10.0–3.0Penaliza los tokens que ya aparecen en la salida. 1.0 = sin penalización
Capas de GPUint32-1-1–200Capas del modelo para descargar a la GPU. -1 = automático. 0 = solo CPU.
Tamaño del Contextoint322048128–131072Tamaño máximo de la ventana de contexto en tokens. Los valores más grandes usan más memoria.
Mensaje del sistemaFString"Eres un asistente útil."Instrucción del sistema que define el comportamiento del modelo.
Semillaint32-1-1+Semilla aleatoria para una salida reproducible. -1 = aleatorio
Número de Hilosint3200–128Hilos de CPU para la generación. 0 = automático.

Uso

Los parámetros de inferencia aparecen como un pin de estructura en los nodos de carga y asíncronos. Desglose la estructura para establecer valores individuales:

Inference Parameters in Blueprint

Para obtener un conjunto de parámetros predeterminados como punto de partida, usa Get Default Inference Params:

Get Default Inference Params

Recomendaciones de Plataforma

Móvil / VR (Android, iOS, Meta Quest)

  • Tamaño de Contexto: 1024–2048
  • Capas de GPU: 0 (solo CPU) a menos que el dispositivo tenga soporte de cómputo GPU confirmado
  • Tokens Máximos: Menos de 256 para interacciones receptivas
  • Número de Hilos: 2–4 según el dispositivo

Escritorio (Windows, Mac, Linux)

  • Tamaño de Contexto: 2048–8192 para la mayoría de conversaciones
  • Capas de GPU: -1 (automático) para aprovechar la aceleración por GPU cuando esté disponible
  • Hilos: 0 (automático)
  • Tokens Máximos: 512–2048 para respuestas más largas

Conversaciones de larga duración

Si tu aplicación mantiene conversaciones durante sesiones largas (diálogos de NPC, asistentes persistentes, juegos de rol), considera combinar el tamaño de tu contexto con resumen automático en lugar de solo aumentar el Context Size. Un Context Size modesto de 2048–4096 con resumen automático habilitado mantiene la latencia y el uso de memoria estables, mientras que ventanas de contexto más grandes hacen que cada generación sea progresivamente más lenta. Consulta Resumen Automático de Contexto.