मुख्य कंटेंट तक स्किप करें

अवलोकन

Runtime Speech Recognizer Documentation

Runtime Speech Recognizer एक क्रॉस-प्लेटफ़ॉर्म प्लगइन है जो रीयल-टाइम, ऑफ़लाइन स्पीच रिकॉग्निशन को सक्षम बनाता है। यह Whisper OpenAI technology पर आधारित है, विशेष रूप से whisper.cpp लाइब्रेरी, और प्लगइन की सेटिंग्स में पहले से चयनित कई भाषा मॉडलों का समर्थन करता है जिसमें स्वचालित भाषा पहचान क्षमताएं शामिल हैं।

इसे कैसे इंस्टॉल करें

पहली बार चलाने पर, भाषा मॉडल इंस्टॉल करें (एक डायलॉग बॉक्स दिखाई देगा जो आपको इसे स्वचालित रूप से करने के लिए कहेगा)।

मूल विवरण

यह प्लगइन उन्नत एल्गोरिदम का उपयोग करके रीयल-टाइम स्पीच रिकॉग्निशन प्रदान करता है जो whisper.cpp लाइब्रेरी पर आधारित है, जो अनुज्ञेय MIT लाइसेंस के तहत उपलब्ध है। यह आने वाले ऑडियो डेटा, जो एक स्ट्रीम या नॉन-स्ट्रीम इनपुट (जैसे कि ऑडियो डेटा की एक फ़ाइल या बफ़र) के रूप में प्रदान किया जाता है, की तुलना पूर्व-प्रशिक्षित भाषा मॉडलों से करता है। बहुभाषी मॉडलों का उपयोग करते समय, प्लगइन स्वचालित रूप से बोली जाने वाली भाषा का पता लगा सकता है और पहचाने गए टेक्स्ट के साथ-साथ यह जानकारी प्रदान कर सकता है।

प्लगइन प्लेटफ़ॉर्म के आधार पर विभिन्न GPU एक्सेलेरेशन विधियों का उपयोग करता है:

  • विंडोज: GPU एक्सेलेरेशन के लिए Vulkan का उपयोग करता है, जो पहचान प्रक्रिया को काफी तेज कर देता है
  • मैक और iOS: GPU एक्सेलेरेशन के लिए Metal का उपयोग करता है, जो Windows Vulkan एक्सेलेरेशन के बराबर, यदि तेज नहीं, तो प्रदर्शन प्रदान करता है
  • अन्य प्लेटफ़ॉर्म: एक्सेलेरेशन के लिए CPU + इंट्रिन्सिक्स का उपयोग करता है (धीमा हो सकता है, जैसे कि Android या Meta Quest पर, जब मूल रूप से चल रहा हो)

अतिरिक्त संसाधन