अनुमान पैरामीटर

LLM अनुमान पैरामीटर संरचना नियंत्रित करती है कि मॉडल कैसे लोड होता है और टेक्स्ट जनरेट करता है। आप ये पैरामीटर मॉडल लोड करते समय पास करते हैं। यह पृष्ठ प्रत्येक पैरामीटर और उसके प्रभाव का वर्णन करता है।

पैरामीटर संदर्भ

पैरामीटर	प्रकार	डिफ़ॉल्ट	सीमा	विवरण
अधिकतम टोकन	int32	512	1–8192	एकल प्रतिक्रिया में जनरेट करने के लिए टोकन की अधिकतम संख्या
तापमान	float	0.7	0.0–2.0	यादृच्छिकता को नियंत्रित करता है। 0.0 = नियतात्मक। उच्च मान = अधिक रचनात्मक आउटपुट
टॉप P	float	0.9	0.0–1.0	न्यूक्लियस सैंपलिंग। केवल वे टोकन जिनकी संचयी संभावना इस मान से अधिक होती है, उन पर विचार किया जाता है
टॉप K	int32	40	0–200	चयन को शीर्ष K सर्वाधिक संभावित टोकन तक सीमित करता है। 0 = अक्षम
पुनरावृत्ति दंड	float	1.1	0.0–3.0	ऐसे टोकन को दंडित करता है जो पहले से ही आउटपुट में दिखाई देते हैं। 1.0 = कोई दंड नहीं
GPU लेयरों की संख्या	int32	-1	-1–200	GPU पर ऑफलोड करने के लिए मॉडल लेयरें। -1 = ऑटो। 0 = केवल CPU
संदर्भ आकार	int32	2048	128–131072	टोकन में अधिकतम संदर्भ विंडो। बड़े मान अधिक मेमोरी का उपयोग करते हैं
सिस्टम प्रॉम्प्ट	FString	"You are a helpful assistant."	—	सिस्टम निर्देश जो मॉडल के व्यवहार को आकार देता है
बीज	int32	-1	-1+	पुनरुत्पादनीय आउटपुट के लिए यादृच्छिक बीज। -1 = यादृच्छिक
थ्रेडों की संख्या	int32	0	0–128	जनरेशन के लिए CPU थ्रेड। 0 = स्वचालित

उपयोग

Blueprint
C++

लोड और async नोड्स पर अनुमान पैरामीटर एक स्ट्रक्ट पिन के रूप में दिखाई देते हैं। व्यक्तिगत मान सेट करने के लिए स्ट्रक्ट को ब्रेक करें:

ब्लूप्रिंट में अनुमान पैरामीटर

एक प्रारंभिक बिंदु के रूप में पैरामीटर का एक डिफ़ॉल्ट सेट प्राप्त करने के लिए, Get Default Inference Params का उपयोग करें:

Get Default Inference Params

    // Creative writing
    FLLMInferenceParams CreativeParams;
    CreativeParams.MaxTokens = 1024;
    CreativeParams.Temperature = 1.2f;
    CreativeParams.TopP = 0.95f;
    CreativeParams.TopK = 80;
    CreativeParams.RepeatPenalty = 1.2f;
    CreativeParams.SystemPrompt = TEXT("You are a creative storyteller.");

    // Factual / deterministic
    FLLMInferenceParams FactualParams;
    FactualParams.MaxTokens = 256;
    FactualParams.Temperature = 0.1f;
    FactualParams.TopP = 0.5f;
    FactualParams.TopK = 10;
    FactualParams.SystemPrompt = TEXT("Answer questions concisely and accurately.");

    // Mobile-optimized
    FLLMInferenceParams MobileParams;
    MobileParams.MaxTokens = 128;
    MobileParams.ContextSize = 1024;
    MobileParams.NumGPULayers = 0;
    MobileParams.NumThreads = 4;
    MobileParams.SystemPrompt = TEXT("You are a helpful assistant. Keep responses brief.");

    // Get defaults programmatically
    FLLMInferenceParams DefaultParams = URuntimeLocalLLM::GetDefaultInferenceParams();

प्लेटफ़ॉर्म अनुशंसाएँ

मोबाइल / VR (Android, iOS, Meta Quest)

कॉन्टेक्स्ट साइज़: 1024–2048
GPU परतों की संख्या: 0 (केवल CPU) जब तक डिवाइस में पुष्टि किए गए GPU कंप्यूट समर्थन न हो
अधिकतम टोकन: त्वरित इंटरैक्शन के लिए 256 से कम
थ्रेड की संख्या: डिवाइस के अनुसार 2–4

डेस्कटॉप (Windows, Mac, Linux)

कॉन्टेक्स्ट साइज़: अधिकांश वार्तालापों के लिए 2048–8192
GPU परतों की संख्या: -1 (स्वचालित) ताकि उपलब्ध होने पर GPU त्वरण का लाभ उठाया जा सके
थ्रेड की संख्या: 0 (स्वचालित)
अधिकतम टोकन: लंबी प्रतिक्रियाओं के लिए 512–2048

पैरामीटर संदर्भ​

उपयोग​

प्लेटफ़ॉर्म अनुशंसाएँ​

मोबाइल / VR (Android, iOS, Meta Quest)​

डेस्कटॉप (Windows, Mac, Linux)​

पैरामीटर संदर्भ

उपयोग

प्लेटफ़ॉर्म अनुशंसाएँ

मोबाइल / VR (Android, iOS, Meta Quest)

डेस्कटॉप (Windows, Mac, Linux)