انتقل إلى المحتوى الرئيسي

نظرة عامة

وثائقية Runtime Speech Recognizer

Runtime Speech Recognizer هو إضافة متعددة المنصات تُمكّن التعرف على الكلام في الوقت الفعلي دون اتصال بالإنترنت. يعتمد على تقنية Whisper من OpenAI، وتحديدًا مكتبة whisper.cpp، ويدعم نماذج لغوية متعددة مُحددة مسبقًا في إعدادات الإضافة مع قدرات الكشف التلقائي عن اللغة.

كيفية التثبيت

عند التشغيل الأول، قم بتثبيت النماذج اللغوية (ستظهر نافذة حوار تطلب منك القيام بذلك تلقائيًا).

الوصف الأساسي

توفر هذه الإضافة التعرف على الكلام في الوقت الفعلي باستخدام خوارزميات متقدمة تعتمد على مكتبة whisper.cpp، المتاحة بموجب ترخيص MIT المتساهل. تقوم بمطابقة بيانات الصوت الواردة، المُقدمة كدفق أو إدخال غير تدفقي (مثل ملف أو مخزن مؤقت لبيانات الصوت)، مع النماذج اللغوية المدربة مسبقًا. عند استخدام النماذج متعددة اللغات، يمكن للإضافة اكتشاف اللغة المنطوقة تلقائيًا وتقديم هذه المعلومات جنبًا إلى جنب مع النص المعرّف عليه.

تستخدم الإضافة طرق تسريع مختلفة لوحدة معالجة الرسومات اعتمادًا على المنصة:

  • Windows: تستخدم Vulkan لتسريع وحدة معالجة الرسومات، مما يسرع عملية التعرف بشكل كبير
  • Mac و iOS: تستخدم Metal لتسريع وحدة معالجة الرسومات، مما يوفر أداءً مماثلاً لتسريع Vulkan على Windows، إن لم يكن أسرع
  • المنصات الأخرى: تستخدم وحدة المعالجة المركزية + الإمكانيات الداخلية للتسريع (قد يكون أبطأ، كما هو الحال على Android أو Meta Quest عند التشغيل الأصلي)

موارد إضافية