मुख्य कंटेंट तक स्किप करें

अवलोकन

रनटाइम स्पीच रिकग्नाइज़र डॉक्युमेंटेशन

रनटाइम स्पीच रिकग्नाइज़र एक क्रॉस-प्लेटफॉर्म प्लगइन है जो रियल-टाइम, ऑफ़लाइन स्पीच रिकग्निशन को सक्षम बनाता है। यह व्हिस्पर ओपनएआई टेक्नोलॉजी पर आधारित है, विशेष रूप से whisper.cpp लाइब्रेरी, और प्लगइन की सेटिंग्स में पहले से चयनित कई भाषा मॉडल्स को सपोर्ट करता है।

इंस्टॉल कैसे करें

पहली बार रन करने पर, भाषा मॉडल्स इंस्टॉल करें (एक डायलॉग बॉक्स स्वचालित रूप से यह करने के लिए पूछते हुए दिखाई देगा)।

बेसिक विवरण

यह प्लगइन whisper.cpp लाइब्रेरी पर आधारित उन्नत एल्गोरिदम का उपयोग करके रियल-टाइम स्पीच रिकग्निशन प्रदान करता है, जो परमिसिव MIT लाइसेंस के तहत उपलब्ध है। यह इनकमिंग ऑडियो डेटा को, जो स्ट्रीम या नॉन-स्ट्रीम इनपुट (जैसे फाइल या ऑडियो डेटा का बफर) के रूप में प्रदान किया जाता है, प्री-ट्रेन्ड भाषा मॉडल्स के साथ मैच करता है।

प्लगइन प्लेटफॉर्म के आधार पर विभिन्न GPU एक्सेलेरेशन मेथड्स का उपयोग करता है:

  • विंडोज: GPU एक्सेलेरेशन के लिए Vulkan का उपयोग करता है, जो रिकग्निशन प्रक्रिया को काफी तेज करता है
  • मैक और iOS: GPU एक्सेलेरेशन के लिए Metal का उपयोग करता है, जो विंडोज Vulkan एक्सेलेरेशन के बराबर, यदि तेज नहीं, तो परफॉर्मेंस प्रदान करता है
  • अन्य प्लेटफॉर्म्स: एक्सेलेरेशन के लिए CPU + इंट्रिन्सिक्स का उपयोग करता है

अतिरिक्त संसाधन