अवलोकन
रनटाइम स्पीच रिकग्नाइज़र एक क्रॉस-प्लेटफ़ॉर्म प्लगइन है जो रीयल-टाइम, ऑफ़लाइन स्पीच रिकग्निशन को सक्षम बनाता है। यह Whisper OpenAI technology पर आधारित है, विशेष रूप से whisper.cpp लाइब्रेरी, और प्लगइन की सेटिंग्स में पहले से चयनित कई भाषा मॉडल का समर्थन करता है।
इंस्टॉल कैसे करें
पहली बार चलाने पर, भाषा मॉडल इंस्टॉल करें (यह स्वचालित रूप से करने के लिए कहते हुए एक डायलॉग बॉक्स दिखाई देगा)।
मूल विवरण
यह प्लगइन उन्नत एल्गोरिदम का उपयोग करके रीयल-टाइम स्पीच रिकग्निशन प्रदान करता है जो whisper.cpp लाइब्रेरी पर आधारित है, जो अनुमेय MIT लाइसेंस के तहत उपलब्ध है। यह आने वाले ऑडियो डेटा, जो एक स्ट्रीम या नॉन-स्ट्रीम इनपुट (जैसे कि ऑडियो डेटा की एक फ़ाइल या बफ़र) के रूप में प्रदान किया जाता है, की तुलना पहले से प्रशिक्षित भाषा मॉडल से करता है।
प्लगइन प्लेटफ़ॉर्म के आधार पर विभिन्न GPU एक्सेलेरेशन विधियों का उपयोग करता है:
- Windows: GPU एक्सेलेरेशन के लिए Vulkan का उपयोग करता है, जो पहचान प्रक्रिया को काफी तेज़ कर देता है
- Mac और iOS: GPU एक्सेलेरेशन के लिए Metal का उपयोग करता है, जो Windows Vulkan एक्सेलेरेशन के बराबर, यदि तेज़ नहीं, तो प्रदर्शन प्रदान करता है
- अन्य प्लेटफ़ॉर्म: एक्सेलेरेशन के लिए CPU + intrinsics का उपयोग करता है (धीमा हो सकता है, जैसे कि Android या Meta Quest पर, जब मूल रूप से चल रहा हो)
अतिरिक्त संसाधन
- Fab पर प्राप्त करें
- उत्पाद वेबसाइट
- डेमो डाउनलोड करें (Windows)
- Discord सपोर्ट सर्वर
- वीडियो ट्यूटोरियल
- कस्टम डेवलपमेंट: [email protected] (टीमों और संगठनों के लिए अनुरूप समाधान)