Aller au contenu principal

Paramètres d'inférence

La structure LLM Inference Parameters contrôle comment le modèle charge et génère du texte. Vous transmettez ces paramètres lors du chargement d'un modèle. Cette page décrit chaque paramètre et son effet.

Référence des paramètres

ParamètreTypePar défautPlageDescription
Max Tokensint325121–8192Nombre maximum de jetons à générer dans une seule réponse
Temperaturefloat0.70.0–2.0Contrôle l'aléa. 0.0 = déterministe. Valeurs plus élevées = sortie plus créative
Top Pfloat0.90.0–1.0Échantillonnage par noyau. Seuls les jetons dont la probabilité cumulée dépasse cette valeur sont considérés
Top Kint32400–200Limite la sélection aux K jetons les plus probables. 0 = désactivé
Repeat Penaltyfloat1.10.0–3.0Pénalise les jetons qui apparaissent déjà dans la sortie. 1.0 = aucune pénalité
Num GPU Layersint32-1-1–200Couches de modèle à transférer vers le GPU. -1 = automatique. 0 = CPU uniquement
Context Sizeint322048128–131072Taille maximale de la fenêtre de contexte en jetons. Les valeurs plus grandes utilisent plus de mémoire
System PromptFString"You are a helpful assistant."Instruction système qui façonne le comportement du modèle
Seedint32-1-1+Graine aléatoire pour une sortie reproductible. -1 = aléatoire
Num Threadsint3200–128Threads CPU pour la génération. 0 = automatique

Utilisation

Les paramètres d'inférence apparaissent sous forme de broche de struct sur les nœuds de chargement et asynchrones. Utilisez Break sur la structure pour définir des valeurs individuelles :

Paramètres d'inférence dans Blueprint

Pour obtenir un ensemble de paramètres par défaut comme point de départ, utilisez Get Default Inference Params :

Get Default Inference Params

Recommandations de plate-forme

Mobile / VR (Android, iOS, Meta Quest)

  • Context Size : 1 024–2 048
  • Num GPU Layers : 0 (CPU uniquement) sauf si l’appareil dispose d’un support de calcul GPU confirmé
  • Max Tokens : Moins de 256 pour des interactions réactives
  • Num Threads : 2–4 selon l’appareil

Desktop (Windows, Mac, Linux)

  • Context Size : 2 048–8 192 pour la plupart des conversations
  • Num GPU Layers : -1 (auto) pour exploiter l’accélération GPU lorsqu’elle est disponible
  • Num Threads : 0 (auto)
  • Max Tokens : 512–2 048 pour des réponses plus longues