अनुमान पैरामीटर
LLM अनुमान पैरामीटर संरचना नियंत्रित करती है कि मॉडल कैसे लोड होता है और टेक्स्ट जनरेट करता है। आप ये पैरामीटर मॉडल लोड करते समय पास करते हैं। यह पृष्ठ प्रत्येक पैरामीटर और उसके प्रभाव का वर्णन करता है।
पैरामीटर संदर्भ
| पैरामीटर | प्रकार | डिफ़ॉल्ट | सीमा | विवरण |
|---|---|---|---|---|
| अधिकतम टोकन | int32 | 512 | 1–8192 | एकल प्रतिक्रिया में जनरेट करने के लिए टोकन की अधिकतम संख्या |
| तापमान | float | 0.7 | 0.0–2.0 | यादृच्छिकता को नियंत्रित करता है। 0.0 = नियतात्मक। उच्च मान = अधिक रचनात्मक आउटपुट |
| टॉप P | float | 0.9 | 0.0–1.0 | न्यूक्लियस सैंपलिंग। केवल वे टोकन जिनकी संचयी संभावना इस मान से अधिक होती है, उन पर विचार किया जाता है |
| टॉप K | int32 | 40 | 0–200 | चयन को शीर्ष K सर्वाधिक संभावित टोकन तक सीमित करता है। 0 = अक्षम |
| पुनरावृत्ति दंड | float | 1.1 | 0.0–3.0 | ऐसे टोकन को दंडित करता है जो पहले से ही आउटपुट में दिखाई देते हैं। 1.0 = कोई दंड नहीं |
| GPU लेयरों की संख्या | int32 | -1 | -1–200 | GPU पर ऑफलोड करने के लिए मॉडल लेयरें। -1 = ऑटो। 0 = केवल CPU |
| संदर्भ आकार | int32 | 2048 | 128–131072 | टोकन में अधिकतम संदर्भ विंडो। बड़े मान अधिक मेमोरी का उपयोग करते हैं |
| सिस्टम प्रॉम्प्ट | FString | "You are a helpful assistant." | — | सिस्टम निर्देश जो मॉडल के व्यवहार को आकार देता है |
| बीज | int32 | -1 | -1+ | पुनरुत्पादनीय आउटपुट के लिए यादृच्छिक बीज। -1 = यादृच्छिक |
| थ्रेडों की संख्या | int32 | 0 | 0–128 | जनरेशन के लिए CPU थ्रेड। 0 = स्वचालित |
उपयोग
- Blueprint
- C++
लोड और async नोड्स पर अनुमान पैरामीटर एक स्ट्रक्ट पिन के रूप में दिखाई देते हैं। व्यक्तिगत मान सेट करने के लिए स्ट्रक्ट को ब्रेक करें:

एक प्रारंभिक बिंदु के रूप में पैरामीटर का एक डिफ़ॉल्ट सेट प्राप्त करने के लिए, Get Default Inference Params का उपयोग करें:

// Creative writing
FLLMInferenceParams CreativeParams;
CreativeParams.MaxTokens = 1024;
CreativeParams.Temperature = 1.2f;
CreativeParams.TopP = 0.95f;
CreativeParams.TopK = 80;
CreativeParams.RepeatPenalty = 1.2f;
CreativeParams.SystemPrompt = TEXT("You are a creative storyteller.");
// Factual / deterministic
FLLMInferenceParams FactualParams;
FactualParams.MaxTokens = 256;
FactualParams.Temperature = 0.1f;
FactualParams.TopP = 0.5f;
FactualParams.TopK = 10;
FactualParams.SystemPrompt = TEXT("Answer questions concisely and accurately.");
// Mobile-optimized
FLLMInferenceParams MobileParams;
MobileParams.MaxTokens = 128;
MobileParams.ContextSize = 1024;
MobileParams.NumGPULayers = 0;
MobileParams.NumThreads = 4;
MobileParams.SystemPrompt = TEXT("You are a helpful assistant. Keep responses brief.");
// Get defaults programmatically
FLLMInferenceParams DefaultParams = URuntimeLocalLLM::GetDefaultInferenceParams();
प्लेटफ़ॉर्म अनुशंसाएँ
मोबाइल / VR (Android, iOS, Meta Quest)
- कॉन्टेक्स्ट साइज़: 1024–2048
- GPU परतों की संख्या: 0 (केवल CPU) जब तक डिवाइस में पुष्टि किए गए GPU कंप्यूट समर्थन न हो
- अधिकतम टोकन: त्वरित इंटरैक्शन के लिए 256 से कम
- थ्रेड की संख्या: डिवाइस के अनुसार 2–4
डेस्कटॉप (Windows, Mac, Linux)
- कॉन्टेक्स्ट साइज़: अधिकांश वार्तालापों के लिए 2048–8192
- GPU परतों की संख्या: -1 (स्वचालित) ताकि उपलब्ध होने पर GPU त्वरण का लाभ उठाया जा सके
- थ्रेड की संख्या: 0 (स्वचालित)
- अधिकतम टोकन: लंबी प्रतिक्रियाओं के लिए 512–2048