Parametri di inferenza

La struttura dei parametri di inferenza LLM controlla il modo in cui il modello viene caricato e genera testo. Questi parametri vengono passati durante il caricamento di un modello. Questa pagina descrive ogni parametro e il suo effetto.

Riferimento dei parametri

Parametro	Tipo	Predefinito	Intervallo	Descrizione
Token massimi	int32	512	1–8192	Numero massimo di token da generare in una singola risposta
Temperatura	float	0.7	0.0–2.0	Controlla la casualità. 0.0 = deterministica. Valori più alti = output più creativo
Top P	float	0.9	0.0–1.0	Campionamento nucleo. Vengono considerati solo i token la cui probabilità cumulativa supera questo valore
Top K	int32	40	0–200	Limita la selezione ai primi K token più probabili. 0 = disabilitato
Penalità di ripetizione	float	1.1	0.0–3.0	Penalizza i token che compaiono già nell'output. 1.0 = nessuna penalità
Numero di livelli GPU	int32	-1	-1–200	Livelli del modello da trasferire sulla GPU. -1 = automatico. 0 = solo CPU
Dimensione contesto	int32	2048	128–131072	Dimensione massima della finestra di contesto in token. Valori maggiori usano più memoria
Prompt di sistema	FString	"You are a helpful assistant."	—	Istruzione di sistema che modella il comportamento del modello
Seme	int32	-1	-1+	Seme casuale per output riproducibili. -1 = casuale
Numero di thread	int32	0	0–128	Thread CPU per la generazione. 0 = automatico

Uso

Blueprint
C++

I parametri di inferenza appaiono come un pin di struttura sui nodi di caricamento e asincroni. Scomporre la struttura per impostare i singoli valori:

Parametri di inferenza in Blueprint

Per ottenere un insieme predefinito di parametri come punto di partenza, usa Get Default Inference Params:

Ottieni parametri di inferenza predefiniti

    // Creative writing
    FLLMInferenceParams CreativeParams;
    CreativeParams.MaxTokens = 1024;
    CreativeParams.Temperature = 1.2f;
    CreativeParams.TopP = 0.95f;
    CreativeParams.TopK = 80;
    CreativeParams.RepeatPenalty = 1.2f;
    CreativeParams.SystemPrompt = TEXT("You are a creative storyteller.");

    // Factual / deterministic
    FLLMInferenceParams FactualParams;
    FactualParams.MaxTokens = 256;
    FactualParams.Temperature = 0.1f;
    FactualParams.TopP = 0.5f;
    FactualParams.TopK = 10;
    FactualParams.SystemPrompt = TEXT("Answer questions concisely and accurately.");

    // Mobile-optimized
    FLLMInferenceParams MobileParams;
    MobileParams.MaxTokens = 128;
    MobileParams.ContextSize = 1024;
    MobileParams.NumGPULayers = 0;
    MobileParams.NumThreads = 4;
    MobileParams.SystemPrompt = TEXT("You are a helpful assistant. Keep responses brief.");

    // Get defaults programmatically
    FLLMInferenceParams DefaultParams = URuntimeLocalLLM::GetDefaultInferenceParams();

Raccomandazioni sulla piattaforma

Mobile / VR (Android, iOS, Meta Quest)

Dimensione del contesto: 1024–2048
Numero di strati GPU: 0 (solo CPU) a meno che il dispositivo non abbia confermato il supporto al calcolo GPU
Token massimi: Meno di 256 per interazioni reattive
Numero di thread: 2–4 a seconda del dispositivo

Desktop (Windows, Mac, Linux)

Dimensione del contesto: 2048–8192 per la maggior parte delle conversazioni
Numero di strati GPU: -1 (auto) per sfruttare l'accelerazione GPU quando disponibile
Numero di thread: 0 (auto)
Token massimi: 512–2048 per risposte più lunghe

Riferimento dei parametri​

Uso​

Raccomandazioni sulla piattaforma​

Mobile / VR (Android, iOS, Meta Quest)​

Desktop (Windows, Mac, Linux)​

Riferimento dei parametri

Uso

Raccomandazioni sulla piattaforma

Mobile / VR (Android, iOS, Meta Quest)

Desktop (Windows, Mac, Linux)