Parámetros de inferencia

La estructura LLM Inference Parameters controla cómo el modelo se carga y genera texto. Estos parámetros se pasan al cargar un modelo. Esta página describe cada parámetro y su efecto.

Referencia de parámetros

Parámetro	Tipo	Predeterminado	Rango	Descripción
Tokens máximos	int32	512	1–8192	Número máximo de tokens a generar en una única respuesta
Temperatura	float	0.7	0.0–2.0	Controla la aleatoriedad. 0.0 = determinista. Valores más altos = salida más creativa
Top P	float	0.9	0.0–1.0	Muestreo por núcleo. Solo se consideran los tokens cuya probabilidad acumulada supera este valor
Top K	int32	40	0–200	Limita la selección a los K tokens más probables. 0 = desactivado
Penalización por repetición	float	1.1	0.0–3.0	Penaliza los tokens que ya aparecen en la salida. 1.0 = sin penalización
Núm. de capas GPU	int32	-1	-1–200	Capas del modelo a descargar en la GPU. -1 = automático. 0 = solo CPU
Tamaño de contexto	int32	2048	128–131072	Ventana de contexto máxima en tokens. Valores más altos usan más memoria
Prompt del sistema	FString	"Eres un asistente útil."	—	Instrucción del sistema que define el comportamiento del modelo
Semilla	int32	-1	-1+	Semilla aleatoria para salida reproducible. -1 = aleatorio
Núm. de hilos	int32	0	0–128	Hilos de CPU para la generación. 0 = automático

Uso

Blueprint
C++

Los parámetros de inferencia aparecen como un pin de estructura en los nodos de carga y asíncronos. Rompe la estructura para establecer valores individuales:

Parámetros de inferencia en Blueprint

Para obtener un conjunto de parámetros predeterminados como punto de partida, usa Get Default Inference Params:

Get Default Inference Params

    // Creative writing
    FLLMInferenceParams CreativeParams;
    CreativeParams.MaxTokens = 1024;
    CreativeParams.Temperature = 1.2f;
    CreativeParams.TopP = 0.95f;
    CreativeParams.TopK = 80;
    CreativeParams.RepeatPenalty = 1.2f;
    CreativeParams.SystemPrompt = TEXT("You are a creative storyteller.");

    // Factual / deterministic
    FLLMInferenceParams FactualParams;
    FactualParams.MaxTokens = 256;
    FactualParams.Temperature = 0.1f;
    FactualParams.TopP = 0.5f;
    FactualParams.TopK = 10;
    FactualParams.SystemPrompt = TEXT("Answer questions concisely and accurately.");

    // Mobile-optimized
    FLLMInferenceParams MobileParams;
    MobileParams.MaxTokens = 128;
    MobileParams.ContextSize = 1024;
    MobileParams.NumGPULayers = 0;
    MobileParams.NumThreads = 4;
    MobileParams.SystemPrompt = TEXT("You are a helpful assistant. Keep responses brief.");

    // Get defaults programmatically
    FLLMInferenceParams DefaultParams = URuntimeLocalLLM::GetDefaultInferenceParams();

Recomendaciones de Plataforma

Móvil / RV (Android, iOS, Meta Quest)

Tamaño de Contexto: 1024–2048
Num GPU Layers: 0 (solo CPU) a menos que el dispositivo tenga soporte de computación GPU confirmado
Max Tokens: Por debajo de 256 para interacciones receptivas
Num Threads: 2–4 dependiendo del dispositivo

Escritorio (Windows, Mac, Linux)

Tamaño de Contexto: 2048–8192 para la mayoría de conversaciones
Num GPU Layers: -1 (auto) para aprovechar la aceleración de GPU cuando esté disponible
Num Threads: 0 (auto)
Max Tokens: 512–2048 para respuestas más largas

Referencia de parámetros​

Uso​

Recomendaciones de Plataforma​

Móvil / RV (Android, iOS, Meta Quest)​

Escritorio (Windows, Mac, Linux)​

Referencia de parámetros

Uso

Recomendaciones de Plataforma

Móvil / RV (Android, iOS, Meta Quest)

Escritorio (Windows, Mac, Linux)