انتقل إلى المحتوى الرئيسي

نظرة عامة

Runtime Speech Recognizer Documentation

Runtime Speech Recognizer هو إضافة متعددة المنصات تتيح التعرف على الكلام في الوقت الفعلي دون اتصال بالإنترنت. يعتمد على تقنية Whisper من OpenAI، وتحديدًا مكتبة whisper.cpp، ويدعم نماذج لغوية متعددة محددة مسبقًا في إعدادات الإضافة.

كيفية التثبيت

عند التشغيل الأول، قم بتثبيت النماذج اللغوية (ستظهر نافذة حوار تطلب منك القيام بذلك تلقائيًا).

وصف أساسي

توفر هذه الإضافة التعرف على الكلام في الوقت الفعلي باستخدام خوارزميات متقدمة تعتمد على مكتبة whisper.cpp، المتاحة بموجب ترخيص MIT المتساهل. تقوم بمطابقة بيانات الصوت الواردة، سواء كتدفق أو كمدخل غير متدفق (مثل ملف أو مخزن مؤقت لبيانات الصوت)، مع النماذج اللغوية المدربة مسبقًا.

تستخدم الإضافة طرقًا مختلفة لتسريع GPU حسب المنصة:

  • ويندوز: تستخدم Vulkan لتسريع GPU، مما يسرع عملية التعرف بشكل كبير
  • ماك وiOS: تستخدم Metal لتسريع GPU، مما يوفر أداءً مماثلاً أو أفضل من تسريع Vulkan على ويندوز
  • منصات أخرى: تستخدم CPU + intrinsics للتسريع

موارد إضافية