قائمة معايير التعرف
يمكن تعيين هذه المعلمات فقط عندما لا يكون المُعرف قيد التشغيل.
هذه ليست قائمة شاملة للمعايير المتوفرة في Whisper. فقط الأكثر أهمية معروضة هنا. إذا لزم الأمر، سيتم تحديث هذه القائمة.
تعيين معايير التعرف
يحدد معايير التعرف الصوتي. إذا كنت ترغب في تغيير معايير محددة فقط، ففكر في استخدام دوال الضبط الفردية.
تعيين الإعدادات الافتراضية للبث
يحدد المعايير الافتراضية المناسبة للتعرف الصوتي عبر البث.
تعيين الإعدادات الافتراضية لغير البث
يحدد المعايير الافتراضية المناسبة للتعرف الصوتي غير المتدفق.
تعيين عدد الخيوط
يحدد عدد الخيوط المستخدمة للتعرف الصوتي. اضبط هذه القيمة على 0 لاستخدام عدد النوى.
تعيين اللغة
يحدد اللغة المستخدمة للتعرف الصوتي. يجب أن تكون مدعومة من قبل نموذج اللغة المحدد في إعدادات المحرر.
سيؤدي تعيين اللغة على "تلقائي" إلى تقليل دقة التعرف والأداء.
تعيين الترجمة إلى الإنجليزية
يحدد ما إذا كان سيتم ترجمة الكلمات المعترف بها إلى الإنجليزية. إذا كانت القيمة صحيحة، فيجب أن يكون نموذج اللغة متعدد اللغات.
تعيين حجم الخطوة
يحدد حجم الخطوة بالمللي ثانية. يحدد عدد مرات إرسال بيانات الصوت للتعرف. القيمة الافتراضية هي 5000 مللي ثانية (5 ثوانٍ).
تعيين عدم وجود سياق
يحدد ما إذا كان سيتم استخدام النص السابق (إن وجد) كموجه أولي لفك التشفير.
تعيين مقطع واحد
يحدد ما إذا كان سيتم إجبار إخراج مقطع واحد (مفيد للبث).
تعيين الحد الأقصى للرموز
يحدد الحد الأقصى لعدد الرموز لكل جزء نصي. استخدم 0 لعدم وجود حد.
تعيين تسريع
يحدد ما إذا كان سيتم تسريع التعرف بمقدار 2x باستخدام Phase Vocoder. اضبطه على false
لتحسين جودة الإخراج.
تعيين حجم سياق الصوت
يحدد حجم سياق الصوت. اضبطه على 0
لتحسين جودة الإخراج.
تعيين درجة الحرارة للزيادة
يحدد درجة الحرارة للزيادة عند التراجع عند فشل فك التشفير في تلبية أي من العتبات أدناه.
تعيين عتبة الإنتروبيا
يحدد عتبة الإنتروبيا. إذا كانت نسبة الضغط أعلى من هذه القيمة، فاعتبر فك التشفير فاشلاً. مشابه لـ "compression_ratio_threshold" من OpenAI.
تعيين كتم الفراغات
يحدد ما إذا كان سيتم كتم الفراغات التي تظهر في المخرجات.
تعيين كتم الرموز غير الصوتية
يحدد ما إذا كان سيتم كتم الرموز غير الصوتية التي تظهر في المخرجات.
تعيين حجم الحزمة
يحدد عدد الحزم في بحث الحزمة. ينطبق فقط عندما تكون درجة الحرارة صفراً.
تعيين الموجه الأولي
يحدد الموجه الأولي للنافذة الأولى. يمكن استخدامه لتوفير سياق للتعرف لجعله أكثر احتمالية للتنبؤ بالكلمات بشكل صحيح، مثل المفردات المخصصة أو الأسماء الصحيحة.
تعيين تسريع GPU
يحدد ما إذا كان سيتم استخدام تسريع GPU للتعرف الصوتي (ينطبق فقط على Windows في الوقت الحالي).
تعيين معرف جهاز GPU
يحدد معرف جهاز GPU المستخدم للتعرف الصوتي. القيمة الافتراضية هي 0. هذا مفيد لأنظمة متعددة GPUs لتحديد أي GPU يجب استخدامه لعملية التعرف. إذا كان معرف جهاز GPU المحدد غير صالح، فسيتم استخدام أول فهرس جهاز GPU متاح بدلاً من ذلك.