अवलोकन

Runtime Local LLM एक प्लगइन है जो llama.cpp का उपयोग करके बड़े भाषा मॉडलों को पूरी तरह से डिवाइस पर चलाता है, जिसमें रनटाइम पर किसी इंटरनेट कनेक्शन की आवश्यकता नहीं होती। यह GGUF मॉडल फाइलों का समर्थन करता है और मॉडल लोड करने, संदेश भेजने और टोकन-दर-टोकन प्रतिक्रियाएँ प्राप्त करने के लिए एक पूर्ण Blueprint API प्रदान करता है, सभी एक बैकग्राउंड थ्रेड पर गेम-थ्रेड कॉलबैक के साथ।
यह प्लगइन Windows, Mac, Linux, Android (Meta Quest और अन्य Android-आधारित प्लेटफ़ॉर्म सहित), और iOS का समर्थन करता है।
मुख्य विशेषताएँ
- पूर्ण ऑफ़लाइन अनुमान: रनटाइम पर कोई क्लाउड सेवाएँ या API कुंजियाँ नहीं
- GGUF मॉडल समर्थन: कोई भी GGUF-फॉर्मेट मॉडल लोड करें (Llama, Mistral, Phi, Gemma, Qwen, आदि)
- अप-टू-डेट llama.cpp: llama.cpp रिलीज़ के साथ तालमेल रखने के लिए Fab पर नियमित रूप से अपडेट किया जाता है, ताकि नवीनतम GGUF मॉडल फॉर्मेट सदैव समर्थित रहें
- GPU त्वरण: Windows और Linux पर Vulkan, Mac और iOS पर Metal, और Android और Meta Quest पर CPU + intrinsics का उपयोग करता है
- एकाधिक मॉडल लोडिंग विधियाँ:
- स्थानीय फ़ाइल पथ से लोड करें
- मॉडल नाम से लोड करें (Blueprints में ड्रॉपडाउन चयन)
- URL से डाउनलोड करें और स्वचालित रूप से लोड करें
- मॉडलों को पूर्व-कैश करने के लिए केवल-डाउनलोड
- टोकन-दर-टोकन स्ट्रीमिंग: रीयल-टाइम प्रदर्शन के लिए जैसे-जैसे यह उत्पन्न होता है, प्रत्येक टोकन प्राप्त करें
- Async Blueprint नोड्स: लोडिंग, संदेश भेजने और डाउनलोडिंग के लिए आउटपुट डेलीगेट वाले नोड्स
- विन्यास योग्य अनुमान पैरामीटर: तापमान, Top-P, Top-K, दोहराव दंड, GPU लेयर ऑफलोडिंग, संदर्भ आकार, सीड, थ्रेड गणना, और सिस्टम प्रॉम्प्ट
- बातचीत संदर्भ प्रबंधन: संदर्भ रीसेट समर्थन के साथ मल्टी-टर्न बातचीत बनाए रखें
- संपादक मॉडल प्रबंधक: प्रोजेक्ट सेटिंग्स में सीधे मॉडल ब्राउज़ करें, डाउनलोड करें, आयात करें, हटाएं और परीक्षण करें
- क्रॉस-प्लेटफ़ॉर्म पैकेजिंग: NonUFS स्टेजिंग के माध्यम से मॉडल आपके प्रोजेक्ट के साथ शिप होते हैं
यह कैसे काम करता है
- संपादक में मॉडल प्रबंधित करें: पूर्व-परिभाषित मॉडलों की सूची ब्राउज़ करने, उन्हें डाउनलोड करने, या अपनी स्वयं की GGUF फाइलें आयात करने के लिए प्लगइन सेटिंग्स पैनल का उपयोग करें
- रनटाइम पर मॉडल लोड करें: अपने अनुमान पैरामीटर्स के साथ लोड फंक्शन में से किसी एक (फ़ाइल द्वारा, नाम द्वारा, URL द्वारा, या मेटाडेटा द्वारा) को कॉल करें
- संदेश भेजें: LLM इंस्टेंस को एक उपयोगकर्ता संदेश पास करें; जैसे-जैसे मॉडल प्रतिक्रिया उत्पन्न करता है, टोकन डेलीगेट के माध्यम से वापस आते हैं
- प्रतिक्रिया का उपयोग करें: चैट UI में टोकन प्रदर्शित करें, NPC संवाद चलाएँ, गतिशील सामग्री उत्पन्न करें, या अन्य सिस्टम में फीड करें
सभी अनुमान एक समर्पित बैकग्राउंड थ्रेड पर चलते हैं। कॉलबैक (टोकन जनरेशन, समाप्ति, त्रुटियाँ) गेम थ्रेड पर फायर होते हैं, इसलिए आप उनसे UI और गेम स्टेट को सुरक्षित रूप से अपडेट कर सकते हैं।
मॉडल भंडारण और पैकेजिंग
मॉडल्स आपके प्रोजेक्ट की Content/RuntimeLocalLLM/Models निर्देशिका में .gguf फ़ाइलों के रूप में संग्रहीत किए जाते हैं। प्लगइन स्वचालित रूप से Additional Non-Asset Directories To Copy (DirectoriesToAlwaysStageAsNonUFS) को कॉन्फ़िगर करता है ताकि मॉडल फ़ाइलें आपके पैकेज्ड प्रोजेक्ट के साथ शिप हों और रनटाइम पर मानक फ़ाइल I/O के माध्यम से सुलभ रहें।
प्रत्येक मॉडल के पास एक .json साइडकार फ़ाइल भी होती है जो उसका मेटाडेटा संग्रहीत करती है (प्रदर्शन नाम, फ़ैमिली, वेरिएंट, विवरण, पैरामीटर गणना)।
समर्थित मॉडल
प्लगइन GGUF फ़ॉर्मेट के किसी भी मॉडल के साथ काम करता है। संपादक वन-क्लिक डाउनलोड के लिए लोकप्रिय पूर्व-परिभाषित मॉडलों की एक सूची प्रदान करता है, और आप किसी भी कस्टम GGUF फ़ाइल को आयात कर सकते हैं। सामान्य मॉडल फ़ैमिली में शामिल हैं:
- Llama (Meta) — 1B, 3B, 8B, और बड़े
- Mistral / Mixtral — 7B और बड़े
- Phi (Microsoft) — 2B, 3B, 4B
- Gemma (Google) — 2B, 7B
- Qwen (Alibaba) — 1.5B, 7B, और बड़े
- TinyLlama — 1.1B
- और कई अन्य समुदाय मॉडल
क्वांटाइज़ेशन
मॉडल विभिन्न क्वांटाइज़ेशन स्तरों में आते हैं जो गुणवत्ता और आकार/गति के बीच संतुलन बनाते हैं:
| क्वांटाइज़ेशन | गुणवत्ता | आकार | गति |
|---|---|---|---|
| Q2_K | कम | सबसे छोटा | सबसे तेज़ |
| Q4_K_M | अच्छी | मध्यम | तेज़ |
| Q5_K_M | बेहतर | बड़ा | मध्यम |
| Q8_0 | उच्च | बड़ा | धीमा |
| F16 / F32 | उच्चतम | सबसे बड़ा | सबसे धीमा |
मोबाइल और VR डिवाइसों के लिए, छोटे क्वांटाइज़ेशन (Q2_K से Q4_K_M) के साथ कॉम्पैक्ट मॉडल (1B–3B पैरामीटर) की सिफारिश की जाती है। डेस्कटॉप के लिए, आप उपलब्ध RAM और CPU/GPU संसाधनों के आधार पर बड़े मॉडल और उच्च क्वांटाइज़ेशन स्तरों का उपयोग कर सकते हैं।
अतिरिक्त संसाधन
- इसे Fab पर प्राप्त करें
- उत्पाद वेबसाइट
- डेमो डाउनलोड करें (Windows)
- वीडियो ट्यूटोरियल
- प्लगइन सहायता और कस्टम डेवलपमेंट: [email protected] (टीमों और संगठनों के लिए अनुकूलित समाधान)