मुख्य कंटेंट तक स्किप करें

अवलोकन

Runtime Speech Recognizer डॉक्यूमेंटेशन

Runtime Speech Recognizer एक क्रॉस-प्लेटफ़ॉर्म प्लगइन है जो रीयल-टाइम, ऑफ़लाइन स्पीच रिकग्निशन सक्षम करता है। यह Whisper OpenAI टेक्नोलॉजी, विशेष रूप से whisper.cpp लाइब्रेरी पर आधारित है, और प्लगइन की सेटिंग्स में पूर्व-चयनित कई भाषा मॉडल्स को ऑटोमैटिक भाषा डिटेक्शन क्षमताओं के साथ सपोर्ट करता है।

इंस्टॉल कैसे करें

पहली बार रन करने पर, भाषा मॉडल्स इंस्टॉल करें (यह स्वचालित रूप से करने के लिए आपसे पूछते हुए एक डायलॉग बॉक्स दिखाई देगा)।

बेसिक विवरण

यह प्लगइन उन्नत एल्गोरिदम का उपयोग करके रीयल-टाइम स्पीच रिकग्निशन प्रदान करता है जो whisper.cpp लाइब्रेरी पर आधारित है, जो परमिसिव MIT लाइसेंस के तहत उपलब्ध है। यह आने वाले ऑडियो डेटा, जो एक स्ट्रीम या नॉन-स्ट्रीम इनपुट (जैसे कि ऑडियो डेटा की एक फ़ाइल या बफ़र) के रूप में प्रदान किया जाता है, को पूर्व-प्रशिक्षित भाषा मॉडल्स के विरुद्ध मिलान करता है। मल्टीलिंगुअल मॉडल्स का उपयोग करते समय, प्लगइन बोली जाने वाली भाषा का स्वचालित रूप से पता लगा सकता है और पहचाने गए टेक्स्ट के साथ-साथ इस जानकारी को प्रदान कर सकता है।

प्लगइन प्लेटफ़ॉर्म के आधार पर विभिन्न GPU एक्सेलेरेशन विधियों का उपयोग करता है:

  • विंडोज़: GPU एक्सेलेरेशन के लिए Vulkan का उपयोग करता है, जो पहचान प्रक्रिया को काफी तेज़ कर देता है
  • Mac और iOS: GPU एक्सेलेरेशन के लिए Metal का उपयोग करता है, जो विंडोज़ Vulkan एक्सेलेरेशन के बराबर, यदि तेज़ नहीं तो, प्रदर्शन प्रदान करता है
  • अन्य प्लेटफ़ॉर्म: एक्सेलेरेशन के लिए CPU + इंट्रिन्सिक्स का उपयोग करता है (धीमा हो सकता है, जैसे कि Android या Meta Quest पर, जब नेटिव रूप से चल रहा हो)

अतिरिक्त संसाधन