Passa al contenuto principale

Parametri di inferenza

La struttura dei parametri di inferenza LLM controlla il modo in cui il modello viene caricato e genera testo. Questi parametri vengono passati durante il caricamento di un modello. Questa pagina descrive ogni parametro e il suo effetto.

Riferimento dei parametri

ParametroTipoPredefinitoIntervalloDescrizione
Token massimiint325121–8192Numero massimo di token da generare in una singola risposta
Temperaturafloat0.70.0–2.0Controlla la casualità. 0.0 = deterministica. Valori più alti = output più creativo
Top Pfloat0.90.0–1.0Campionamento nucleo. Vengono considerati solo i token la cui probabilità cumulativa supera questo valore
Top Kint32400–200Limita la selezione ai primi K token più probabili. 0 = disabilitato
Penalità di ripetizionefloat1.10.0–3.0Penalizza i token che compaiono già nell'output. 1.0 = nessuna penalità
Numero di livelli GPUint32-1-1–200Livelli del modello da trasferire sulla GPU. -1 = automatico. 0 = solo CPU
Dimensione contestoint322048128–131072Dimensione massima della finestra di contesto in token. Valori maggiori usano più memoria
Prompt di sistemaFString"You are a helpful assistant."Istruzione di sistema che modella il comportamento del modello
Semeint32-1-1+Seme casuale per output riproducibili. -1 = casuale
Numero di threadint3200–128Thread CPU per la generazione. 0 = automatico

Uso

I parametri di inferenza appaiono come un pin di struttura sui nodi di caricamento e asincroni. Scomporre la struttura per impostare i singoli valori:

Parametri di inferenza in Blueprint

Per ottenere un insieme predefinito di parametri come punto di partenza, usa Get Default Inference Params:

Ottieni parametri di inferenza predefiniti

Raccomandazioni sulla piattaforma

Mobile / VR (Android, iOS, Meta Quest)

  • Dimensione del contesto: 1024–2048
  • Numero di strati GPU: 0 (solo CPU) a meno che il dispositivo non abbia confermato il supporto al calcolo GPU
  • Token massimi: Meno di 256 per interazioni reattive
  • Numero di thread: 2–4 a seconda del dispositivo

Desktop (Windows, Mac, Linux)

  • Dimensione del contesto: 2048–8192 per la maggior parte delle conversazioni
  • Numero di strati GPU: -1 (auto) per sfruttare l'accelerazione GPU quando disponibile
  • Numero di thread: 0 (auto)
  • Token massimi: 512–2048 per risposte più lunghe