Ana içeriğe geç

Çıkarım parametreleri

LLM Çıkarım Parametreleri yapısı, modelin nasıl yüklendiğini ve metin oluşturduğunu kontrol eder. Bu parametreleri bir model yüklerken iletirsiniz. Bu sayfa, her bir parametreyi ve etkisini açıklamaktadır.

Parametre Referansı

ParametreTypeVarsayılanAralıkAçıklama
Maksimum Tokenint325121–8192Tek bir yanıtta oluşturulacak maksimum token sayısı
Sıcaklıkfloat0.70.0–2.0Rastgeleliği kontrol eder. 0.0 = deterministik. Daha yüksek değerler = daha yaratıcı çıktı.
En Yüksek Pfloat0.90.0–1.0Nucleus örneklemesi. Yalnızca kümülatif olasılığı bu değeri aşan token'lar dikkate alınır.
En Yüksek Kint32400–200Seçimi, en olası K token ile sınırlar. 0 = devre dışı.
Tekrar Cezasıfloat1.10.0–3.0Çıktıda zaten görünen token'ları cezalandırır. 1.0 = ceza yok
GPU Katman Sayısıint32-1-1–200GPU'ya aktarılacak model katmanları. -1 = otomatik. 0 = yalnızca CPU.
Bağlam Boyutuint322048128–131072Maksimum bağlam penceresi (token cinsinden). Daha büyük değerler daha fazla bellek kullanır.
Sistem İstemiFString"Yardımcı bir asistansınız."Sistem talimatı, modelin davranışını şekillendirir
Tohumint32-1-1+Tekrarlanabilir çıktı için rastgele tohum. -1 = rastgele
İş Parçacığı Sayısıint3200–128Üretim için CPU iş parçacıkları. 0 = otomatik

Kullanım

Çıkarım parametreleri, yükleme ve async düğümlerinde bir yapı pini olarak görünür. Bireysel değerleri ayarlamak için yapıyı parçalayın:

Inference Parameters in Blueprint

Varsayılan bir parametre setini başlangıç noktası olarak almak için Get Default Inference Params kullanın:

Get Default Inference Params

Platform Önerileri

Mobil / VR (Android, iOS, Meta Quest)

  • Bağlam Boyutu: 1024–2048
  • GPU Katman Sayısı: 0 (yalnızca CPU), cihazın GPU hesaplama desteği onaylanmadıkça
  • Maksimum Token: Duyarlı etkileşimler için 256'nın altında
  • İş Parçacığı Sayısı: Cihaza bağlı olarak 2–4

Masaüstü (Windows, Mac, Linux)

  • Bağlam Boyutu: Çoğu konuşma için 2048–8192
  • GPU Katman Sayısı: Mümkün olduğunda GPU hızlandırmasından yararlanmak için -1 (otomatik)
  • İş Parçacığı Sayısı: 0 (otomatik)
  • Maksimum Token: Daha uzun yanıtlar için 512–2048

Uzun Süreli Sohbetler

Uygulamanız uzun oturumlar boyunca konuşmaları sürdürüyorsa (NPC diyalogları, kalıcı asistanlar, rol yapma), Context Size değerini artırmak yerine, bağlam boyutunuzu otomatik özetleme ile eşleştirmeyi düşünün. Otomatik özetleme etkinleştirilmiş 2048–4096 arası mütevazı bir Context Size, gecikme ve bellek kullanımını sabit tutarken, daha büyük bağlam pencereleri her üretimi giderek yavaşlatır. Bkz. Otomatik Bağlam Özetleme.