Zum Hauptinhalt springen

Inferenzparameter

Die Struktur LLM Inference Parameters steuert, wie das Modell geladen wird und Text generiert. Diese Parameter übergeben Sie beim Laden eines Modells. Diese Seite beschreibt jeden Parameter und seine Auswirkungen.

Parameterreferenz

ParameterTypStandardBereichBeschreibung
Max Tokensint325121–8192Maximale Anzahl an Tokens, die in einer einzigen Antwort generiert werden
Temperaturefloat0.70.0–2.0Steuert die Zufälligkeit. 0,0 = deterministisch. Höhere Werte = kreativere Ausgabe
Top Pfloat0.90.0–1.0Nucleus-Sampling. Nur Tokens, deren kumulative Wahrscheinlichkeit diesen Wert überschreitet, werden berücksichtigt
Top Kint32400–200Beschränkt die Auswahl auf die K wahrscheinlichsten Tokens. 0 = deaktiviert
Repeat Penaltyfloat1.10,0–3,0Bestraft Tokens, die bereits in der Ausgabe vorkommen. 1,0 = keine Strafe
Num GPU Layersint32-1-1–200Modell-Layer, die auf die GPU ausgelagert werden. -1 = automatisch. 0 = nur CPU
Context Sizeint322048128–131072Maximale Kontextfenstergröße in Tokens. Größere Werte verbrauchen mehr Speicher
System PromptFString"Du bist ein hilfsbereiter Assistent."Systemanweisung, die das Verhalten des Modells prägt
Seedint32-1-1+Zufallsseed für reproduzierbare Ausgabe. -1 = zufällig
Num Threadsint3200–128CPU-Threads für die Generierung. 0 = automatisch

Verwendung

Inferenzparameter erscheinen als Struct-Pin bei Load- und Async-Knoten. Verwenden Sie den Break-Struct-Knoten, um einzelne Werte festzulegen:

Inferenzparameter in Blueprint

Um einen Standardparametersatz als Ausgangspunkt zu erhalten, verwenden Sie Get Default Inference Params:

Standard-Inferenzparameter abrufen

Plattform-Empfehlungen

Mobil / VR (Android, iOS, Meta Quest)

  • Kontextgröße: 1024–2048
  • Num GPU Layers: 0 (CPU only) es sei denn, das Gerät verfügt über bestätigte GPU-Compute-Unterstützung
  • Max Tokens: unter 256 für reaktionsschnelle Interaktionen
  • Num Threads: 2–4 je nach Gerät

Desktop (Windows, Mac, Linux)

  • Kontextgröße: 2048–8192 für die meisten Unterhaltungen
  • Num GPU Layers: -1 (auto) um GPU-Beschleunigung zu nutzen, wenn verfügbar
  • Num Threads: 0 (auto)
  • Max Tokens: 512–2048 für längere Antworten