انتقل إلى المحتوى الرئيسي

معاملات الاستدلال

تتحكم بنية معاملات الاستدلال LLM في كيفية تحميل النموذج وتوليده للنص. تقوم بتمرير هذه المعاملات عند تحميل النموذج. تصف هذه الصفحة كل معامل وتأثيره.

مرجع المعاملات

المعاملالنوعالافتراضيالنطاقالوصف
الرموز القصوىint325121–8192الحد الأقصى لعدد الرموز التي يتم توليدها في استجابة واحدة
درجة الحرارةfloat0.70.0–2.0يتحكم في العشوائية. 0.0 = حتمي. القيم الأعلى = إخراج أكثر إبداعًا
أعلى Pfloat0.90.0–1.0أخذ عينات بالنواة. يتم النظر فقط في الرموز التي تتجاوز احتماليتها التراكمية هذه القيمة
أعلى Kint32400–200يقتصر التحديد على الرموز الأكثر احتمالاً من فئة K العليا. 0 = معطل
عقوبة التكرارfloat1.10.0–3.0يعاقب الرموز التي ظهرت بالفعل في المخرجات. 1.0 = لا عقوبة
عدد طبقات GPUint32-1-1–200طبقات النموذج التي سيتم تفريغها إلى GPU. -1 = تلقائي. 0 = وحدة المعالجة المركزية فقط
حجم السياقint322048128–131072النافذة القصوى للسياق بالرموز. القيم الأكبر تستخدم ذاكرة أكثر
الموجه النظاميFString"You are a helpful assistant."تعليمة النظام التي تشكل سلوك النموذج
البذرةint32-1-1+بذرة عشوائية لإخراج قابل للتكرار. -1 = عشوائي
عدد الخيوطint3200–128خيوط وحدة المعالجة المركزية للتوليد. 0 = تلقائي

الاستخدام

تظهر معاملات الاستدلال كدبوس بنية على عقد التحميل والعقد غير المتزامنة. قم بتفكيك البنية لتعيين القيم الفردية:

Inference Parameters in Blueprint

للحصول على مجموعة افتراضية من المعاملات كنقطة بداية، استخدم Get Default Inference Params:

Get Default Inference Params

توصيات المنصة

الجوال / الواقع الافتراضي (Android, iOS, Meta Quest)

  • حجم السياق: 1024–2048
  • Num GPU Layers: 0 (CPU فقط) ما لم يدعم الجهاز حوسبة GPU بشكل مؤكد
  • Max Tokens: أقل من 256 لتفاعلات سريعة الاستجابة
  • Num Threads: 2–4 حسب الجهاز

سطح المكتب (Windows, Mac, Linux)

  • حجم السياق: 2048–8192 لمعظم المحادثات
  • Num GPU Layers: -1 (تلقائي) للاستفادة من تسريع GPU عند توفره
  • Num Threads: 0 (تلقائي)
  • Max Tokens: 512–2048 للردود الأطول