Çıkarım parametreleri
LLM Çıkarım Parametreleri yapısı, modelin nasıl yüklendiğini ve metin oluşturduğunu kontrol eder. Bu parametreleri bir model yüklerken iletirsiniz. Bu sayfa, her bir parametreyi ve etkisini açıklamaktadır.
Parametre Referansı
| Parametre | Type | Varsayılan | Aralık | Açıklama |
|---|---|---|---|---|
| Maksimum Token | int32 | 512 | 1–8192 | Tek bir yanıtta oluşturulacak maksimum token sayısı |
| Sıcaklık | float | 0.7 | 0.0–2.0 | Rastgeleliği kontrol eder. 0.0 = deterministik. Daha yüksek değerler = daha yaratıcı çıktı. |
| En Yüksek P | float | 0.9 | 0.0–1.0 | Nucleus örneklemesi. Yalnızca kümülatif olasılığı bu değeri aşan token'lar dikkate alınır. |
| En Yüksek K | int32 | 40 | 0–200 | Seçimi, en olası K token ile sınırlar. 0 = devre dışı. |
| Tekrar Cezası | float | 1.1 | 0.0–3.0 | Çıktıda zaten görünen token'ları cezalandırır. 1.0 = ceza yok |
| GPU Katman Sayısı | int32 | -1 | -1–200 | GPU'ya aktarılacak model katmanları. -1 = otomatik. 0 = yalnızca CPU. |
| Bağlam Boyutu | int32 | 2048 | 128–131072 | Maksimum bağlam penceresi (token cinsinden). Daha büyük değerler daha fazla bellek kullanır. |
| Sistem İstemi | FString | "Yardımcı bir asistansınız." | — | Sistem talimatı, modelin davranışını şekillendirir |
| Tohum | int32 | -1 | -1+ | Tekrarlanabilir çıktı için rastgele tohum. -1 = rastgele |
| İş Parçacığı Sayısı | int32 | 0 | 0–128 | Üretim için CPU iş parçacıkları. 0 = otomatik |
Kullanım
- Blueprint
- C++
Çıkarım parametreleri, yükleme ve async düğümlerinde bir yapı pini olarak görünür. Bireysel değerleri ayarlamak için yapıyı parçalayın:

Varsayılan bir parametre setini başlangıç noktası olarak almak için Get Default Inference Params kullanın:

// Creative writing
FLLMInferenceParams CreativeParams;
CreativeParams.MaxTokens = 1024;
CreativeParams.Temperature = 1.2f;
CreativeParams.TopP = 0.95f;
CreativeParams.TopK = 80;
CreativeParams.RepeatPenalty = 1.2f;
CreativeParams.SystemPrompt = TEXT("You are a creative storyteller.");
// Factual / deterministic
FLLMInferenceParams FactualParams;
FactualParams.MaxTokens = 256;
FactualParams.Temperature = 0.1f;
FactualParams.TopP = 0.5f;
FactualParams.TopK = 10;
FactualParams.SystemPrompt = TEXT("Answer questions concisely and accurately.");
// Mobile-optimized
FLLMInferenceParams MobileParams;
MobileParams.MaxTokens = 128;
MobileParams.ContextSize = 1024;
MobileParams.NumGPULayers = 0;
MobileParams.NumThreads = 4;
MobileParams.SystemPrompt = TEXT("You are a helpful assistant. Keep responses brief.");
// Get defaults programmatically
FLLMInferenceParams DefaultParams = URuntimeLocalLLM::GetDefaultInferenceParams();
Platform Önerileri
Mobil / VR (Android, iOS, Meta Quest)
- Bağlam Boyutu: 1024–2048
- GPU Katman Sayısı: 0 (yalnızca CPU), cihazın GPU hesaplama desteği onaylanmadıkça
- Maksimum Token: Duyarlı etkileşimler için 256'nın altında
- İş Parçacığı Sayısı: Cihaza bağlı olarak 2–4
Masaüstü (Windows, Mac, Linux)
- Bağlam Boyutu: Çoğu konuşma için 2048–8192
- GPU Katman Sayısı: Mümkün olduğunda GPU hızlandırmasından yararlanmak için -1 (otomatik)
- İş Parçacığı Sayısı: 0 (otomatik)
- Maksimum Token: Daha uzun yanıtlar için 512–2048
Uzun Süreli Sohbetler
Uygulamanız uzun oturumlar boyunca konuşmaları sürdürüyorsa (NPC diyalogları, kalıcı asistanlar, rol yapma), Context Size değerini artırmak yerine, bağlam boyutunuzu otomatik özetleme ile eşleştirmeyi düşünün. Otomatik özetleme etkinleştirilmiş 2048–4096 arası mütevazı bir Context Size, gecikme ve bellek kullanımını sabit tutarken, daha büyük bağlam pencereleri her üretimi giderek yavaşlatır. Bkz. Otomatik Bağlam Özetleme.