نظرة عامة
Runtime Speech Recognizer هو مكون إضافي متعدد المنصات يمكّن من التعرف على الكلام في الوقت الفعلي دون اتصال بالإنترنت. يعتمد على تقنية Whisper من OpenAI، وتحديدًا مكتبة whisper.cpp، ويدعم نماذج لغوية متعددة مُختارة مسبقًا في إعدادات المكون الإضافي.
كيفية التثبيت
عند التشغيل الأول، قم بتثبيت النماذج اللغوية (ستظهر نافذة حوار تطلب منك القيام بذلك تلقائيًا).
الوصف الأساسي
يوفر هذا المكون الإضافي التعرف على الكلام في الوقت الفعلي باستخدام خوارزميات متقدمة تعتمد على مكتبة whisper.cpp، المتاحة بموجب ترخيص MIT المتساهل. يقوم بمطابقة بيانات الصوت الواردة، المقدمة كتدفق أو إدخال غير تدفقي (مثل ملف أو مخزن مؤقت لبيانات الصوت)، مع النماذج اللغوية المدربة مسبقًا.
يستخدم المكون الإضافي طرق تسريع مختلفة لوحدة معالجة الرسومات (GPU) اعتمادًا على المنصة:
- Windows: يستخدم Vulkan لتسريع وحدة معالجة الرسومات، مما يسرع عملية التعرف بشكل كبير
- Mac و iOS: يستخدم Metal لتسريع وحدة معالجة الرسومات، مما يوفر أداءً مماثلاً لتسريع Vulkan على Windows، إن لم يكن أسرع
- المنصات الأخرى: يستخدم وحدة المعالجة المركزية (CPU) + الإمكانيات الداخلية (intrinsics) للتسريع (قد يكون أبطأ، كما هو الحال على Android أو Meta Quest عند التشغيل الأصلي)
موارد إضافية
- احصل عليه على Fab
- الموقع الإلكتروني للمنتج
- تحميل التجربة التوضيحية (Windows)
- خادم دعم Discord
- فيديو تعليمي
- تطوير مخصص: [email protected] (حلول مخصصة للفرق والمنظمات)