Przejdź do głównej zawartości

Parametry inferencji

Referencja parametrów

ParametrTypDomyślnieZakresOpis
Max Tokensint325121–8192Maksymalna liczba tokenów do wygenerowania w pojedynczej odpowiedzi
Temperaturefloat0.70.0–2.0Kontroluje losowość. 0.0 = deterministycznie. Wyższe wartości = bardziej kreatywne wyjście
Top Pfloat0.90.0–1.0Próbkowanie jądra. Uwzględniane są tylko tokeny, których skumulowane prawdopodobieństwo przekracza tę wartość
Top Kint32400–200Ogranicza wybór do K najbardziej prawdopodobnych tokenów. 0 = wyłączone
Repeat Penaltyfloat1.10.0–3.0Karze tokeny, które już wystąpiły w wyjściu. 1.0 = brak kary
Num GPU Layersint32-1-1–200Liczba warstw modelu do przeniesienia na GPU. -1 = auto. 0 = tylko CPU
Context Sizeint322048128–131072Maksymalne okno kontekstu w tokenach. Większe wartości zużywają więcej pamięci
System PromptFString"Jesteś pomocnym asystentem."Instrukcja systemowa kształtująca zachowanie modelu
Seedint32-1-1+Ziarno losowe do odtwarzalnych wyników. -1 = losowe
Num Threadsint3200–128Wątki CPU do generowania. 0 = automatyczne

Użycie

Parametry inferencji pojawiają się jako pin struktury na węzłach ładowania i asynchronicznych. Rozbij strukturę, aby ustawić poszczególne wartości:

Parametry inferencji w Blueprint

Aby uzyskać domyślny zestaw parametrów jako punkt wyjścia, użyj Get Default Inference Params:

Get Default Inference Params

Zalecenia dotyczące platformy

Mobilne / VR (Android, iOS, Meta Quest)

  • Rozmiar kontekstu: 1024–2048
  • Num GPU Layers: 0 (tylko CPU), chyba że urządzenie ma potwierdzoną obsługę obliczeń GPU
  • Max Tokens: Poniżej 256 dla responsywnych interakcji
  • Num Threads: 2–4 w zależności od urządzenia

Desktop (Windows, Mac, Linux)

  • Rozmiar kontekstu: 2048–8192 dla większości rozmów
  • Num GPU Layers: -1 (auto) w celu wykorzystania akceleracji GPU, gdy jest dostępna
  • Num Threads: 0 (auto)
  • Max Tokens: 512–2048 dla dłuższych odpowiedzi