Aller au contenu principal

Paramètres d'inférence

La structure des paramètres d'inférence du LLM contrôle la manière dont le modèle charge et génère du texte. Vous transmettez ces paramètres lors du chargement d'un modèle. Cette page décrit chaque paramètre et son effet.

Référence des paramètres

ParamètreTypeDéfautGammeDescription
Max Tokensint325121–8192Nombre maximum de jetons à générer dans une seule réponse
Températureflottant0,70,0–2,0Contrôle le caractère aléatoire. 0.0 = déterministe. Des valeurs plus élevées = une sortie plus créative.
Top Pflottant0,90,0–1,0Échantillonnage par noyau. Seuls les jetons dont la probabilité cumulée dépasse cette valeur sont pris en compte.
Top Kint32400–200Limite la sélection aux K tokens les plus probables. 0 = désactivé.
Pénalité de répétitionflottant1.10,0–3,0Pénalise les tokens qui apparaissent déjà dans la sortie. 1.0 = aucune pénalité
Couches GPUint32-1-1–200Couches de modèle à décharger sur le GPU. -1 = automatique. 0 = CPU uniquement.
Taille du Contexteint322048128–131072Taille maximale de la fenêtre de contexte en tokens. Des valeurs plus élevées utilisent plus de mémoire.
Invite systèmeFString"Vous êtes un assistant utile."Instruction système qui façonne le comportement du modèle
Seedint32-1-1+Graine aléatoire pour une sortie reproductible. -1 = aléatoire
Nombre de threadsint3200–128Threads CPU pour la génération. 0 = automatique

Utilisation

Les paramètres d'inférence apparaissent sous forme d'une broche de structure sur les nœuds de chargement et asynchrones. Décomposez la structure pour définir des valeurs individuelles.

Inference Parameters in Blueprint

Pour obtenir un ensemble de paramètres par défaut comme point de départ, utilisez Get Default Inference Params :

Get Default Inference Params

Recommandations de plateforme

Mobile / VR (Android, iOS, Meta Quest)

  • Taille du contexte : 1024–2048
  • Nombre de couches GPU : 0 (CPU uniquement) sauf si l’appareil prend en charge le calcul GPU confirmé
  • Nombre maximal de tokens : Moins de 256 pour des interactions réactives
  • Nombre de threads : 2–4 selon l’appareil

Bureau (Windows, Mac, Linux)

  • Taille du contexte : 2048–8192 pour la plupart des conversations
  • Nombre de couches GPU : -1 (auto) pour exploiter l'accélération GPU lorsqu'elle est disponible
  • Nombre de threads : 0 (auto)
  • Tokens maximum : 512–2048 pour des réponses plus longues

Conversations Longues

Si votre application maintient des conversations sur de longues sessions (dialogues de PNJ, assistants persistants, jeux de rôle), envisagez d'associer votre taille de contexte à une synthèse automatique plutôt que d'augmenter simplement la Taille du Contexte. Une Taille du Contexte modeste de 2048 à 4096 avec la synthèse automatique activée maintient une latence et une utilisation mémoire stables, tandis que des fenêtres de contexte plus grandes ralentissent progressivement chaque génération. Voir Synthèse automatique du contexte.