قائمة معاملات التعرف
يمكن تعيين هذه المعاملات فقط عندما لا يكون المُعرف قيد التشغيل.
هذه ليست قائمة شاملة للمعاملات المتوفرة في Whisper. فقط الأكثر أهمية منها معروضة هنا. إذا لزم الأمر، سيتم تحديث هذه القائمة.
تعيين معاملات التعرف

يحدد المعاملات الخاصة بالتعرف على الكلام. إذا كنت ترغب في تغيير معلمات محددة فقط، ففكر في استخدام دوالات التعيين الفردية.
تعيين الإعدادات الافتراضية للبث

يحدد المعاملات الافتراضية المناسبة للتعرف على الكلام عبر البث.
تعيين الإعدادات الافتراضية لغير البث

يحدد المعاملات الافتراضية المناسبة للتعرف على الكلام بدون بث.
تعيين عدد الخيوط

يحدد عدد الخيوط (threads) المستخدمة للتعرف على الكلام. عيّن هذه القيمة إلى 0 لاستخدام عدد النوى.
تعيين اللغة

يحدد اللغة المستخدمة للتعرف على الكلام. يجب أن تكون مدعومة من قبل نموذج اللغة المحدد في إعدادات المحرر.
سيؤدي تعيين اللغة إلى "تلقائي" إلى تقليل دقة التعرف والأداء.
الحصول على اللغة المكتشفة

يحصل على اللغة المكتشفة من آخر عملية تعرف. يُرجع اللغة كقيمة تعداد.
ملاحظة: تعمل هذه الدالة فقط بعد إجراء التعرف. تُرجع "تلقائي" إذا فشل اكتشاف اللغة أو لم يتم إجراؤه. هذا مفيد بشكل خاص عند استخدام الكشف التلقائي عن اللغة لتحديد اللغة التي تم التعرف عليها فعليًا.
الحصول على رمز اللغة

يحول قيمة تعداد اللغة إلى سلسلة رمز اللغة الخاصة بها (على سبيل المثال، En -> "en"، Fr -> "fr"، De -> "de").
الحصول على الاسم الكامل للغة

يحول قيمة تعداد اللغة إلى اسمها الكامل (على سبيل المثال، En -> "الإنجليزية"، Fr -> "الفرنسية"، De -> "الألمانية").
تعيين الترجمة إلى الإنجليزية

يحدد ما إذا كان سيتم ترجمة الكلمات المعترف بها إلى الإنجليزية. إذا كانت القيمة صحيحة، فيجب أن يكون نموذج اللغة متعدد اللغات.
تعيين حجم الخطوة

يحدد حجم الخطوة بالمللي ثانية. يحدد عدد مرات إرسال بيانات الصوت للتعرف. القيمة الافتراضية هي 5000 مللي ثانية (5 ثوانٍ).
تعيين بدون سياق

يحدد ما إذا كان سيتم استخدام النص السابق (إن وجد) كموجه أولي لفك الشفرة.
تعيين مقطع واحد

يحدد ما إذا كان سيتم فرض إخراج مقطع واحد (مفيد للبث).
تعيين الحد الأقصى للرموز
يحدد الحد الأقصى لعدد الرموز لكل جزء نصي. استخدم 0 لعدم وجود حد.
تعجيل السرعة

يحدد ما إذا كان سيتم تسريع عملية التعرف بمقدار 2x باستخدام Phase Vocoder. اضبطه على false لتحسين جودة الناتج.
تعيين حجم سياق الصوت

يحدد حجم سياق الصوت. اضبطه على 0 لتحسين جودة الناتج.
تعيين درجة الحرارة للزيادة

يحدد درجة الحرارة للزيادة عند التراجع عندما يفشل فك التشفير في تلبية أي من العتبات أدناه.
تعيين عتبة الإنتروبيا

يحدد عتبة الإنتروبيا. إذا كانت نسبة الضغط أعلى من هذه القيمة، عالج فك التشفير على أنه فاشل. مشابه لـ "compression_ratio_threshold" الخاص بـ OpenAI
كبح الفراغات

يحدد ما إذا كان سيتم كبح ظهور الفراغات في المخرجات.
كبح الرموز غير الصوتية

يحدد ما إذا كان سيتم كبح ظهور الرموز غير الصوتية في المخرجات.
تعيين حجم الحزمة

يحدد عدد الحزم في بحث الحزمة. ينطبق فقط عندما تكون درجة الحرارة صفر.
تعيين المطالبة الأولية

يحدد المطالبة الأولية للنافذة الأولى. يمكن استخدام هذا لتوفير سياق للتعرف لجعله أكثر احتمالية للتنبؤ بالكلمات بشكل صحيح، على سبيل المثال، المفردات المخصصة أو الأسماء الصحيحة.
تعجيل GPU

يحدد ما إذا كان سيتم استخدام تعجيل GPU للتعرف على الكلام (ينطبق فقط على Windows في الوقت الحالي).
تعيين معرف جهاز GPU

يحدد معرف جهاز GPU الذي سيتم استخدامه للتعرف على الكلام. القيمة الافتراضية هي 0. هذا مفيد للأنظمة التي تحتوي على وحدات معالجة رسومية متعددة لتحديد أي GPU يجب استخدامه لعملية التعرف. إذا كان معرف جهاز GPU المحدد غير صالح، سيتم استخدام أول فهرس جهاز GPU متاح بدلاً من ذلك.