نظرة عامة

Runtime Local LLM هو ملحق يقوم بتشغيل نماذج لغوية كبيرة على الجهاز بالكامل باستخدام llama.cpp، دون الحاجة إلى اتصال بالإنترنت في وقت التشغيل. يدعم ملفات نماذج GGUF ويوفر واجهة برمجة تطبيقات Blueprint كاملة لتحميل النماذج وإرسال الرسائل واستقبال الردود رمزًا برمز، كل ذلك على خيط خلفي مع استدعاءات خيط اللعبة.
يدعم الملحق Windows و Mac و Linux و Android (بما في ذلك Meta Quest وغيرها من المنصات المستندة إلى Android) و iOS.
الميزات الرئيسية
- استدلال كامل دون اتصال: لا حاجة لخدمات سحابية أو مفاتيح API في وقت التشغيل
- دعم نماذج GGUF: تحميل أي نموذج بصيغة GGUF (Llama, Mistral, Phi, Gemma, Qwen, إلخ)
- llama.cpp محدثة باستمرار: تُحدث بانتظام على Fab لمواكبة إصدارات llama.cpp، بحيث تُدعم أحدث صيغ نماذج GGUF دائمًا
- تسريع GPU: يستخدم Vulkan على Windows و Linux، و Metal على Mac و iOS، و CPU + intrinsics على Android و Meta Quest
- طرق متعددة لتحميل النماذج:
- التحميل من مسار ملف محلي
- التحميل حسب اسم النموذج (اختيار من قائمة منسدلة في Blueprints)
- التنزيل من URL والتحميل تلقائيًا
- التنزيل فقط للتخزين المؤقت المسبق للنماذج
- تدفق الرموز: استقبال كل رمز فور توليده لعرضه في الوقت الفعلي
- عقد Blueprint غير متزامنة: عقد مع مفوضين للإخراج للتحميل والإرسال والتنزيل
- معلمات استدلال قابلة للتكوين: Temperature، Top-P، Top-K، عقوبة التكرار، تفريغ طبقات GPU، حجم السياق، البذرة، عدد الخيوط، والموجه النظامي
- إدارة سياق المحادثة: الحفاظ على محادثات متعددة الأدوار مع دعم إعادة تعيين السياق
- مدير النماذج في المحرر: تصفح وتنزيل واستيراد وحذف واختبار النماذج مباشرة في إعدادات المشروع
- تعبئة عبر المنصات: تُشحن النماذج مع مشروعك عبر تجميع NonUFS
كيف يعمل
- إدارة النماذج في المحرر: استخدم لوحة إعدادات الملحق لتصفح كتالوج النماذج المحددة مسبقًا أو تنزيلها أو استيراد ملفات GGUF الخاصة بك
- تحميل نموذج في وقت التشغيل: استدع إحدى وظائف التحميل (بواسطة الملف، أو بالاسم، أو عبر URL، أو بواسطة البيانات الوصفية) مع معلمات الاستدلال الخاصة بك
- إرسال الرسائل: مرر رسالة مستخدم إلى مثيل LLM؛ تتدفق الرموز مرة أخرى عبر المفوضين أثناء قيام النموذج بتوليد الرد
- استخدام الرد: عرض الرموز في واجهة محادثة، أو قيادة حوار الشخصيات غير القابلة للعب، أو توليد محتوى ديناميكي، أو توجيهها إلى أنظمة أخرى
يتم تشغيل جميع عمليات الاستدلال على خيط خلفي مخصص. تعمل استدعاءات (إنشاء الرموز، الاكتمال، الأخطاء) على خيط اللعبة، بحيث يمكنك تحديث واجهة المستخدم وحالة اللعبة بأمان منها.
تخزين النماذج والتعبئة
تُخزن النماذج كملفات .gguf في مجلد Content/RuntimeLocalLLM/Models داخل مشروعك. يقوم الملحق تلقائيًا بتكوين Additional Non-Asset Directories To Copy (DirectoriesToAlwaysStageAsNonUFS) بحيث تُشحن ملفات النموذج مع مشروعك المُعبأ وتظل قابلة للوصول عبر الإدخال/الإخراج القياسي للملفات في وقت التشغيل.
يحتوي كل نموذج أيضًا على ملف .json جانبي يخزن بياناته الوصفية (اسم العرض، العائلة، المتغير، الوصف، عدد البارامترات).
النماذج المدعومة
يعمل الملحق مع أي نموذج بصيغة GGUF. يوفر المحرر كتالوجًا للنماذج المعرفة مسبقًا الشائعة للتنزيل بنقرة واحدة، ويمكنك استيراد أي ملف GGUF مخصص. تشمل عائلات النماذج الشائعة:
- Llama (Meta) — 1B، 3B، 8B، وأكبر
- Mistral / Mixtral — 7B وأكبر
- Phi (Microsoft) — 2B، 3B، 4B
- Gemma (Google) — 2B، 7B
- Qwen (Alibaba) — 1.5B، 7B، وأكبر
- TinyLlama — 1.1B
- والعديد من نماذج المجتمع الأخرى
التكميم
تأتي النماذج بمستويات تكميم متنوعة توازن بين الجودة والحجم والسرعة:
| التكميم | الجودة | الحجم | السرعة |
|---|---|---|---|
| Q2_K | أقل | الأصغر | الأسرع |
| Q4_K_M | جيد | متوسط | سريع |
| Q5_K_M | أفضل | أكبر | معتدل |
| Q8_0 | عالي | كبير | أبطأ |
| F16 / F32 | الأعلى | الأكبر | الأبطأ |
لأجهزة المحمول والـ VR، يُوصى بتكميمات أصغر (من Q2_K حتى Q4_K_M) مع نماذج مدمجة (1B–3B بارامتر). لأجهزة سطح المكتب، يمكن استخدام نماذج أكبر ومستويات تكميم أعلى حسب ذاكرة RAM المتاحة وموارد CPU/GPU.
موارد إضافية
- احصل عليه على Fab
- موقع المنتج
- تنزيل النسخة التجريبية (Windows)
- درس فيديو
- دعم الملحق والتطوير المخصص: [email protected] (حلول مصممة خصيصًا للفرق والمؤسسات)