अवलोकन

रनटाइम स्पीच रिकग्नाइज़र एक क्रॉस-प्लेटफ़ॉर्म प्लगइन है जो रियल-टाइम, ऑफ़लाइन स्पीच रिकग्निशन सक्षम करता है। यह Whisper OpenAI टेक्नोलॉजी, विशेष रूप से whisper.cpp लाइब्रेरी पर आधारित है, और प्लगइन की सेटिंग्स में पहले से चयनित कई भाषा मॉडल्स को ऑटोमैटिक भाषा डिटेक्शन क्षमताओं के साथ सपोर्ट करता है।
इंस्टॉल कैसे करें
पहली बार रन करने पर, भाषा मॉडल्स इंस्टॉल करें (यह स्वचालित रूप से करने के लिए आपसे पूछते हुए एक डायलॉग बॉक्स दिखाई देगा)।
बुनियादी विवरण
यह प्लगइन उन्नत एल्गोरिदम का उपयोग करके रियल-टाइम स्पीच रिकग्निशन प्रदान करता है जो whisper.cpp लाइब्रेरी पर आधारित है, जो परमिसिव MIT लाइसेंस के तहत उपलब्ध है। यह आने वाले ऑडियो डेटा, जो एक स्ट्रीम या नॉन-स्ट्रीम इनपुट (जैसे कि ऑडियो डेटा की एक फ़ाइल या बफ़र) के रूप में प्रदान किया जाता है, को पहले से प्रशिक्षित भाषा मॉडल्स के विरुद्ध मिलान करता है। मल्टीलिंगुअल मॉडल्स का उपयोग करते समय, प्लगइन स्वचालित रूप से बोली जाने वाली भाषा का पता लगा सकता है और पहचाने गए टेक्स्ट के साथ-साथ यह जानकारी प्रदान कर सकता है।
प्लगइन प्लेटफ़ॉर्म के आधार पर विभिन्न GPU एक्सेलेरेशन विधियों का उपयोग करता है:
- विंडोज़ और लिनक्स: GPU एक्सेलेरेशन के लिए Vulkan का उपयोग करता है, जो पहचान प्रक्रिया को काफी तेज़ कर देता है
- मैक और iOS: GPU एक्सेलेरेशन के लिए Metal का उपयोग करता है, जो विंडोज़ या लिनक्स Vulkan एक्सेलेरेशन के बराबर, यदि तेज़ नहीं तो, प्रदर्शन प्रदान करता है
- अन्य प्लेटफ़ॉर्म: एक्सेलेरेशन के लिए CPU + इंट्रिंसिक्स का उपयोग करता है (धीमा हो सकता है, जैसे कि Android या Meta Quest पर, जब नेटिव रूप से चल रहा हो)
अतिरिक्त संसाधन
- Fab पर प्राप्त करें
- उत्पाद वेबसाइट
- डेमो डाउनलोड करें (विंडोज़)
- Discord सपोर्ट सर्वर
- वीडियो ट्यूटोरियल
- प्लगइन सपोर्ट और कस्टम डेवलपमेंट: [email protected] (टीमों और संगठनों के लिए अनुरूप समाधान)