अवलोकन

Runtime Local LLM एक प्लगइन है जो llama.cpp का उपयोग करके बड़े भाषा मॉडलों को पूरी तरह से डिवाइस पर चलाता है, जिसमें रनटाइम पर किसी इंटरनेट कनेक्शन की आवश्यकता नहीं होती। यह GGUF मॉडल फाइलों का समर्थन करता है और मॉडल लोड करने, संदेश भेजने और टोकन-दर-टोकन प्रतिक्रियाएँ प्राप्त करने के लिए एक पूर्ण Blueprint API प्रदान करता है, सभी एक बैकग्राउंड थ्रेड पर गेम-थ्रेड कॉलबैक के साथ।

यह प्लगइन Windows, Mac, Linux, Android (Meta Quest और अन्य Android-आधारित प्लेटफ़ॉर्म सहित), और iOS का समर्थन करता है।

मुख्य विशेषताएँ

पूर्ण ऑफ़लाइन अनुमान: रनटाइम पर कोई क्लाउड सेवाएँ या API कुंजियाँ नहीं
GGUF मॉडल समर्थन: कोई भी GGUF-फॉर्मेट मॉडल लोड करें (Llama, Mistral, Phi, Gemma, Qwen, आदि)
अप-टू-डेट llama.cpp: llama.cpp रिलीज़ के साथ तालमेल रखने के लिए Fab पर नियमित रूप से अपडेट किया जाता है, ताकि नवीनतम GGUF मॉडल फॉर्मेट सदैव समर्थित रहें
GPU त्वरण: Windows और Linux पर Vulkan, Mac और iOS पर Metal, और Android और Meta Quest पर CPU + intrinsics का उपयोग करता है
एकाधिक मॉडल लोडिंग विधियाँ:
- स्थानीय फ़ाइल पथ से लोड करें
- मॉडल नाम से लोड करें (Blueprints में ड्रॉपडाउन चयन)
- URL से डाउनलोड करें और स्वचालित रूप से लोड करें
- मॉडलों को पूर्व-कैश करने के लिए केवल-डाउनलोड
टोकन-दर-टोकन स्ट्रीमिंग: रीयल-टाइम प्रदर्शन के लिए जैसे-जैसे यह उत्पन्न होता है, प्रत्येक टोकन प्राप्त करें
Async Blueprint नोड्स: लोडिंग, संदेश भेजने और डाउनलोडिंग के लिए आउटपुट डेलीगेट वाले नोड्स
विन्यास योग्य अनुमान पैरामीटर: तापमान, Top-P, Top-K, दोहराव दंड, GPU लेयर ऑफलोडिंग, संदर्भ आकार, सीड, थ्रेड गणना, और सिस्टम प्रॉम्प्ट
बातचीत संदर्भ प्रबंधन: संदर्भ रीसेट समर्थन के साथ मल्टी-टर्न बातचीत बनाए रखें
संपादक मॉडल प्रबंधक: प्रोजेक्ट सेटिंग्स में सीधे मॉडल ब्राउज़ करें, डाउनलोड करें, आयात करें, हटाएं और परीक्षण करें
क्रॉस-प्लेटफ़ॉर्म पैकेजिंग: NonUFS स्टेजिंग के माध्यम से मॉडल आपके प्रोजेक्ट के साथ शिप होते हैं

यह कैसे काम करता है

संपादक में मॉडल प्रबंधित करें: पूर्व-परिभाषित मॉडलों की सूची ब्राउज़ करने, उन्हें डाउनलोड करने, या अपनी स्वयं की GGUF फाइलें आयात करने के लिए प्लगइन सेटिंग्स पैनल का उपयोग करें
रनटाइम पर मॉडल लोड करें: अपने अनुमान पैरामीटर्स के साथ लोड फंक्शन में से किसी एक (फ़ाइल द्वारा, नाम द्वारा, URL द्वारा, या मेटाडेटा द्वारा) को कॉल करें
संदेश भेजें: LLM इंस्टेंस को एक उपयोगकर्ता संदेश पास करें; जैसे-जैसे मॉडल प्रतिक्रिया उत्पन्न करता है, टोकन डेलीगेट के माध्यम से वापस आते हैं
प्रतिक्रिया का उपयोग करें: चैट UI में टोकन प्रदर्शित करें, NPC संवाद चलाएँ, गतिशील सामग्री उत्पन्न करें, या अन्य सिस्टम में फीड करें

सभी अनुमान एक समर्पित बैकग्राउंड थ्रेड पर चलते हैं। कॉलबैक (टोकन जनरेशन, समाप्ति, त्रुटियाँ) गेम थ्रेड पर फायर होते हैं, इसलिए आप उनसे UI और गेम स्टेट को सुरक्षित रूप से अपडेट कर सकते हैं।

मॉडल भंडारण और पैकेजिंग

मॉडल्स आपके प्रोजेक्ट की Content/RuntimeLocalLLM/Models निर्देशिका में .gguf फ़ाइलों के रूप में संग्रहीत किए जाते हैं। प्लगइन स्वचालित रूप से Additional Non-Asset Directories To Copy (DirectoriesToAlwaysStageAsNonUFS) को कॉन्फ़िगर करता है ताकि मॉडल फ़ाइलें आपके पैकेज्ड प्रोजेक्ट के साथ शिप हों और रनटाइम पर मानक फ़ाइल I/O के माध्यम से सुलभ रहें।

प्रत्येक मॉडल के पास एक .json साइडकार फ़ाइल भी होती है जो उसका मेटाडेटा संग्रहीत करती है (प्रदर्शन नाम, फ़ैमिली, वेरिएंट, विवरण, पैरामीटर गणना)।

समर्थित मॉडल

प्लगइन GGUF फ़ॉर्मेट के किसी भी मॉडल के साथ काम करता है। संपादक वन-क्लिक डाउनलोड के लिए लोकप्रिय पूर्व-परिभाषित मॉडलों की एक सूची प्रदान करता है, और आप किसी भी कस्टम GGUF फ़ाइल को आयात कर सकते हैं। सामान्य मॉडल फ़ैमिली में शामिल हैं:

Llama (Meta) — 1B, 3B, 8B, और बड़े
Mistral / Mixtral — 7B और बड़े
Phi (Microsoft) — 2B, 3B, 4B
Gemma (Google) — 2B, 7B
Qwen (Alibaba) — 1.5B, 7B, और बड़े
TinyLlama — 1.1B
और कई अन्य समुदाय मॉडल

क्वांटाइज़ेशन

मॉडल विभिन्न क्वांटाइज़ेशन स्तरों में आते हैं जो गुणवत्ता और आकार/गति के बीच संतुलन बनाते हैं:

क्वांटाइज़ेशन	गुणवत्ता	आकार	गति
Q2_K	कम	सबसे छोटा	सबसे तेज़
Q4_K_M	अच्छी	मध्यम	तेज़
Q5_K_M	बेहतर	बड़ा	मध्यम
Q8_0	उच्च	बड़ा	धीमा
F16 / F32	उच्चतम	सबसे बड़ा	सबसे धीमा

मोबाइल और VR डिवाइसों के लिए, छोटे क्वांटाइज़ेशन (Q2_K से Q4_K_M) के साथ कॉम्पैक्ट मॉडल (1B–3B पैरामीटर) की सिफारिश की जाती है। डेस्कटॉप के लिए, आप उपलब्ध RAM और CPU/GPU संसाधनों के आधार पर बड़े मॉडल और उच्च क्वांटाइज़ेशन स्तरों का उपयोग कर सकते हैं।

अतिरिक्त संसाधन

इसे Fab पर प्राप्त करें
उत्पाद वेबसाइट
डेमो डाउनलोड करें (Windows)
वीडियो ट्यूटोरियल
प्लगइन सहायता और कस्टम डेवलपमेंट: [email protected] (टीमों और संगठनों के लिए अनुकूलित समाधान)

Join our Discord

online · support

मुख्य विशेषताएँ​

यह कैसे काम करता है​

मॉडल भंडारण और पैकेजिंग​

समर्थित मॉडल​

क्वांटाइज़ेशन​

अतिरिक्त संसाधन​