نظرة عامة

Runtime Speech Recognizer هو إضافة متعددة المنصات تُمكّن التعرف على الكلام في الوقت الفعلي دون اتصال بالإنترنت. يعتمد على تقنية Whisper من OpenAI، وتحديدًا مكتبة whisper.cpp، ويدعم نماذج لغوية متعددة مُحددة مسبقًا في إعدادات الإضافة مع قدرات الكشف التلقائي عن اللغة.
كيفية التثبيت
عند التشغيل الأول، قم بتثبيت النماذج اللغوية (ستظهر نافذة حوار تطلب منك القيام بذلك تلقائيًا).
الوصف الأساسي
توفر هذه الإضافة التعرف على الكلام في الوقت الفعلي باستخدام خوارزميات متقدمة تعتمد على مكتبة whisper.cpp، المتاحة تحت ترخيص MIT المتساهل. تقوم بمطابقة بيانات الصوت الواردة، المُقدمة كدفق (stream) أو إدخال غير متدفق (مثل ملف أو مخزن مؤقت لبيانات الصوت)، مع النماذج اللغوية المُدرَّبة مسبقًا. عند استخدام النماذج متعددة اللغات، يمكن للإضافة اكتشاف اللغة المنطوقة تلقائيًا وتقديم هذه المعلومات جنبًا إلى جنب مع النص المُتعرف عليه.
تستخدم الإضافة طرق تسريع مختلفة بواسطة وحدة معالجة الرسومات (GPU) اعتمادًا على المنصة:
- Windows: تستخدم Vulkan لتسريع GPU، مما يسرع عملية التعرف بشكل كبير
- Mac و iOS: تستخدم Metal لتسريع GPU، مما يوفر أداءً مماثلاً لتسريع Vulkan على Windows إن لم يكن أسرع
- المنصات الأخرى: تستخدم وحدة المعالجة المركزية (CPU) + الإمكانيات الداخلية (intrinsics) للتسريع (قد يكون أبطأ، كما هو الحال على Android أو Meta Quest عند التشغيل الأصلي)
موارد إضافية
- احصل عليه على Fab
- الموقع الإلكتروني للمنتج
- تحميل العرض التوضيحي (Windows)
- خادم الدعم على Discord
- فيديو تعليمي
- دعم الإضافة والتطوير المخصص: [email protected] (حلول مخصصة للفرق والمنظمات)