अवलोकन
Runtime Speech Recognizer एक क्रॉस-प्लेटफॉर्म प्लगइन है जो रियल-टाइम, ऑफ़लाइन स्पीच रिकग्निशन को सक्षम बनाता है। यह Whisper OpenAI टेक्नोलॉजी, विशेष र ूप से whisper.cpp लाइब्रेरी पर आधारित है, और प्लगइन की सेटिंग्स में पहले से चयनित कई भाषा मॉडल्स को सपोर्ट करता है।
इंस्टॉल कैसे करें
पहली बार रन करने पर, भाषा मॉडल्स इंस्टॉल करें (एक डायलॉग बॉक्स स्वचालित रूप से यह करने के लिए आपसे पूछेगा)।
बेसिक विवरण
यह प्लगइन whisper.cpp लाइब्रेरी पर आधारित उन्नत एल्गोरिदम का उपयोग करके रियल-टाइम स्पीच रिकग्निशन प्रदान करता है। यह इनकमिंग ऑडियो डेटा, जो स्ट्रीम या नॉन-स्ट्रीम इनपुट (जैसे फ़ाइल या ऑडियो डेटा का बफर) के रूप में प्रदान किया जाता है, को पहले से ट्रेन किए गए भाषा मॉडल्स के साथ मिलाता है।
विंडोज़ पर, प्लगइन GPU एक्सेलेरेशन के लिए Vulkan का उपयोग करता है, जो रिकग्निशन प्रक्रिया को काफी तेज कर देता है। अन्य प्लेटफॉर्म्स पर, प्लगइन एक्सेलेरेशन के लिए CPU + इंट्रिन्सिक्स का उपयोग करता है।
अतिरिक्त संसाधन
- Fab पर प्राप्त करें
- उत्पाद वेबसाइट
- डेमो डाउनलोड करें (विंडोज़)
- डिस्कॉर्ड सपोर्ट सर्वर
- वीडियो ट्यूटोरियल
- कस्टम डेवलपमेंट: [email protected] (टीम्स और संगठनों के लिए अनुरूपित समाधान)