मुख्य कंटेंट तक स्किप करें

अवलोकन

Runtime Speech Recognizer डॉक्युमेंटेशन

Runtime Speech Recognizer एक क्रॉस-प्लेटफॉर्म प्लगइन है जो रियल-टाइम, ऑफ़लाइन स्पीच रिकग्निशन को सक्षम बनाता है। यह Whisper OpenAI टेक्नोलॉजी, विशेष रूप से whisper.cpp लाइब्रेरी पर आधारित है, और प्लगइन की सेटिंग्स में पहले से चयनित कई भाषा मॉडल्स को सपोर्ट करता है।

इंस्टॉल कैसे करें

पहली बार रन करने पर, भाषा मॉडल्स इंस्टॉल करें (एक डायलॉग बॉक्स स्वचालित रूप से यह करने के लिए आपसे पूछेगा)।

बेसिक विवरण

यह प्लगइन whisper.cpp लाइब्रेरी पर आधारित उन्नत एल्गोरिदम का उपयोग करके रियल-टाइम स्पीच रिकग्निशन प्रदान करता है। यह इनकमिंग ऑडियो डेटा, जो स्ट्रीम या नॉन-स्ट्रीम इनपुट (जैसे फ़ाइल या ऑडियो डेटा का बफर) के रूप में प्रदान किया जाता है, को पहले से ट्रेन किए गए भाषा मॉडल्स के साथ मिलाता है।

विंडोज़ पर, प्लगइन GPU एक्सेलेरेशन के लिए Vulkan का उपयोग करता है, जो रिकग्निशन प्रक्रिया को काफी तेज कर देता है। अन्य प्लेटफॉर्म्स पर, प्लगइन एक्सेलेरेशन के लिए CPU + इंट्रिन्सिक्स का उपयोग करता है।

अतिरिक्त संसाधन