Zum Hauptinhalt springen

Inferenzparameter

Die Struktur der LLM-Inferenzparameter steuert, wie das Modell geladen wird und Text generiert. Sie übergeben diese Parameter beim Laden eines Modells. Diese Seite beschreibt jeden Parameter und seine Wirkung.

Parameterreferenz

ParameterTypeStandardBereichBeschreibung
Max Tokensint325121–8192Maximale Anzahl von Tokens, die in einer einzelnen Antwort generiert werden sollen
Temperaturfloat0.70.0–2.0Steuert die Zufälligkeit. 0,0 = deterministisch. Höhere Werte = kreativere Ausgabe.
Top Pfloat0.90,0–1,0Nucleus-Sampling. Es werden nur Tokens berücksichtigt, deren kumulative Wahrscheinlichkeit diesen Wert überschreitet.
Top Kint32400–200Begrenzt die Auswahl auf die K wahrscheinlichsten Tokens. 0 = deaktiviert
Wiederholungsstrafefloat1.10.0–3.0Bestraft Tokens, die bereits in der Ausgabe vorkommen. 1.0 = keine Bestrafung
Anzahl der GPU-Layerint32-1-1–200Model-Ebenen, die auf die GPU ausgelagert werden sollen. -1 = automatisch. 0 = nur CPU.
Kontextgrößeint322048128–131072Maximale Kontextfenster in Tokens. Größere Werte verbrauchen mehr Speicher.
System-PromptFString„Du bist ein hilfreicher Assistent.“Systemanweisung, die das Verhalten des Modells prägt
Seedint32-1-1+Zufälliger Startwert für reproduzierbare Ausgabe. -1 = zufällig
Anzahl der Threadsint3200–128CPU-Threads für die Generierung. 0 = automatisch

Nutzung

Inferenzparameter erscheinen als Struct-Pin auf Load- und Async-Nodes. Brechen Sie das Struct auf, um einzelne Werte festzulegen:

Inference Parameters in Blueprint

Um einen Standardsatz von Parametern als Ausgangspunkt zu erhalten, verwenden Sie Get Default Inference Params:

Get Default Inference Params

Plattform-Empfehlungen

Mobil / VR (Android, iOS, Meta Quest)

  • Kontextgröße: 1024–2048
  • Anzahl GPU-Schichten: 0 (nur CPU), sofern das Gerät nicht über bestätigte GPU-Compute-Unterstützung verfügt
  • Maximale Token-Anzahl: Unter 256 für reaktionsschnelle Interaktionen
  • Anzahl Threads: 2–4, abhängig vom Gerät

Desktop (Windows, Mac, Linux)

  • Kontextgröße: 2048–8192 für die meisten Gespräche
  • Anzahl GPU-Schichten: -1 (automatisch) zur Nutzung der GPU-Beschleunigung, falls verfügbar
  • Anzahl Threads: 0 (automatisch)
  • Maximale Token: 512–2048 für längere Antworten

Lang andauernde Gespräche

Wenn Ihre Anwendung Gespräche über lange Sitzungen hinweg aufrechterhält (NPC-Dialoge, dauerhafte Assistenten, Rollenspiele), sollten Sie Ihre Kontextgröße eher mit automatischer Zusammenfassung kombinieren, anstatt einfach die Context Size zu erhöhen. Eine moderate Context Size von 2048–4096 mit aktivierter automatischer Zusammenfassung hält Latenz und Speichernutzung stabil, während größere Kontextfenster jede Generierung zunehmend verlangsamen. Siehe Automatische Kontextzusammenfassung.