मुख्य कंटेंट तक स्किप करें

अनुमान पैरामीटर

LLM अनुमान पैरामीटर संरचना नियंत्रित करती है कि मॉडल कैसे लोड होता है और टेक्स्ट जनरेट करता है। आप ये पैरामीटर मॉडल लोड करते समय पास करते हैं। यह पृष्ठ प्रत्येक पैरामीटर और उसके प्रभाव का वर्णन करता है।

पैरामीटर संदर्भ

पैरामीटरप्रकारडिफ़ॉल्टसीमाविवरण
अधिकतम टोकनint325121–8192एकल प्रतिक्रिया में जनरेट करने के लिए टोकन की अधिकतम संख्या
तापमानfloat0.70.0–2.0यादृच्छिकता को नियंत्रित करता है। 0.0 = नियतात्मक। उच्च मान = अधिक रचनात्मक आउटपुट
टॉप Pfloat0.90.0–1.0न्यूक्लियस सैंपलिंग। केवल वे टोकन जिनकी संचयी संभावना इस मान से अधिक होती है, उन पर विचार किया जाता है
टॉप Kint32400–200चयन को शीर्ष K सर्वाधिक संभावित टोकन तक सीमित करता है। 0 = अक्षम
पुनरावृत्ति दंडfloat1.10.0–3.0ऐसे टोकन को दंडित करता है जो पहले से ही आउटपुट में दिखाई देते हैं। 1.0 = कोई दंड नहीं
GPU लेयरों की संख्याint32-1-1–200GPU पर ऑफलोड करने के लिए मॉडल लेयरें। -1 = ऑटो। 0 = केवल CPU
संदर्भ आकारint322048128–131072टोकन में अधिकतम संदर्भ विंडो। बड़े मान अधिक मेमोरी का उपयोग करते हैं
सिस्टम प्रॉम्प्टFString"You are a helpful assistant."सिस्टम निर्देश जो मॉडल के व्यवहार को आकार देता है
बीजint32-1-1+पुनरुत्पादनीय आउटपुट के लिए यादृच्छिक बीज। -1 = यादृच्छिक
थ्रेडों की संख्याint3200–128जनरेशन के लिए CPU थ्रेड। 0 = स्वचालित

उपयोग

लोड और async नोड्स पर अनुमान पैरामीटर एक स्ट्रक्ट पिन के रूप में दिखाई देते हैं। व्यक्तिगत मान सेट करने के लिए स्ट्रक्ट को ब्रेक करें:

ब्लूप्रिंट में अनुमान पैरामीटर

एक प्रारंभिक बिंदु के रूप में पैरामीटर का एक डिफ़ॉल्ट सेट प्राप्त करने के लिए, Get Default Inference Params का उपयोग करें:

Get Default Inference Params

प्लेटफ़ॉर्म अनुशंसाएँ

मोबाइल / VR (Android, iOS, Meta Quest)

  • कॉन्टेक्स्ट साइज़: 1024–2048
  • GPU परतों की संख्या: 0 (केवल CPU) जब तक डिवाइस में पुष्टि किए गए GPU कंप्यूट समर्थन न हो
  • अधिकतम टोकन: त्वरित इंटरैक्शन के लिए 256 से कम
  • थ्रेड की संख्या: डिवाइस के अनुसार 2–4

डेस्कटॉप (Windows, Mac, Linux)

  • कॉन्टेक्स्ट साइज़: अधिकांश वार्तालापों के लिए 2048–8192
  • GPU परतों की संख्या: -1 (स्वचालित) ताकि उपलब्ध होने पर GPU त्वरण का लाभ उठाया जा सके
  • थ्रेड की संख्या: 0 (स्वचालित)
  • अधिकतम टोकन: लंबी प्रतिक्रियाओं के लिए 512–2048