प्लगइन का उपयोग कैसे करें
रनटाइम स्पीच रिकग्नाइज़र प्लगइन इनकमिंग ऑडियो डेटा से शब्दों को पहचानने के लिए डिज़ाइन किया गया है। यह इंजन के साथ काम करने के लिए whisper.cpp के थोड़े संशोधित संस्करण का उपयोग कर ता है। प्लगइन का उपयोग करने के लिए, इन चरणों का पालन करें:
एडिटर साइड
- अपने प्रोजेक्ट के लिए उपयुक्त भाषा मॉडल का चयन करें जैसा कि यहाँ वर्णित है।
रनटाइम साइड
- एक स्पीच रिकग्नाइज़र बनाएं और आवश्यक पैरामीटर्स सेट करें (CreateSpeechRecognizer, पैरामीटर्स के लिए यहाँ देखें)।
- आवश्यक डेलिगेट्स से बाइंड करें (OnRecognitionFinished, OnRecognizedTextSegment और OnRecognitionError)।
- स्पीच रिकग्निशन शुरू करें (StartSpeechRecognition)।
- ऑडियो डेटा प्रोसेस करें और डेलिगेट्स से परिणामों की प्रतीक्षा करें (ProcessAudioData)।
- आवश्यकता पड़ने पर स्पीच रिकग ्नाइज़र को रोकें (उदाहरण के लिए, OnRecognitionFinished ब्रॉडकास्ट के बाद)।
प्लगइन फ़्लोटिंग पॉइंट 32-बिट इंटरलीव्ड PCM फॉर्मेट में इनकमिंग ऑडियो का समर्थन करता है। जबकि यह रनटाइम ऑडियो इम्पोर्टर के साथ अच्छी तरह से काम करता है, यह सीधे इस पर निर्भर नहीं करता है।
रिकग्निशन पैरामीटर्स
प्लगइन स्ट्रीमिंग और नॉन-स्ट्रीमिंग ऑडियो डेटा रिकग्निशन दोनों का समर्थन करता है। अपने विशिष्ट उपयोग के मामले के लिए रिकग्निशन पैरामीटर्स को समायोजित करने के लिए, SetStreamingDefaults
या SetNonStreamingDefaults
को कॉल करें। इसके अतिरिक्त, आपके पास व्यक्तिगत पैरामीटर्स जैसे थ्रेड्स की संख्या, स्टेप साइज़, क्या इनकमिंग भाषा को अंग्रेजी में अनुवाद करना है, और क्या पिछले ट्रांसक्रिप्शन का उपयोग करना है, को मैन्युअल रूप से सेट करने की लचीलापन है। उपलब्ध पैरामीटर्स की पूरी सूची के लिए रिकग्निशन पैरामीटर लिस्ट देखें।
प्रदर्शन में सुधार
कृपया प्लगइन के प्रदर्शन को अनुकूलित करने के तरीकों के लिए प्रदर्शन कैसे सुधारें सेक्शन देखें।
वॉयस एक्टिविटी डिटेक्शन (VAD)
ऑडियो इनपुट को प्रोसेस करते समय, विशेष रूप से स्ट्रीमिंग परिदृश्यों में, रिकग्नाइज़र तक पहुँचने से पहले खाली या शोर-मात्र ऑडियो सेगमेंट्स को फ़िल्टर करने के लिए वॉयस एक्टिविटी डिटेक्शन (VAD) का उपयोग करने की सिफारिश की जाती है। इस फ़िल्टरिंग को रनटाइम ऑडियो इम्पोर्टर प्लगइन का उपयोग करके कैप्चर करने योग्य साउंड वेव साइड पर सक्षम किया जा सकता है, जो भाषा मॉडल्स को हॉलुसिनेट करने - शोर में पैटर्न ढूंढने और गलत ट्रांसक्रिप्शन उत्पन्न करने के प्रयास से रोकने में मदद करता है।
इष्टतम स्पीच रिकग्निशन परिणामों के लिए, हम सिलेरो VAD प्रोवाइडर का उपयोग करने की सिफारिश करते हैं जो उत्कृष्ट शोर सहनशीलता और अधिक सटीक स्पीच डिटेक्शन प्रदान करता है। सिलेरो VAD रनटाइम ऑडियो इम्पोर्टर प्लगइन के एक्सटेंशन के रूप में उपलब्ध है। VAD कॉन्फ़िगरेशन के विस्तृत निर्देशों के लिए, वॉयस एक्टिविटी डिटेक्शन डॉक्युमेंटेशन देखें।
नीचे दिए गए उदाहरणों में कॉपी करने योग्य नोड्स संगतता कारणों से डिफ़ॉल्ट VAD प्रदाता का उपयोग करते हैं। पहचान सटीकता बढ़ाने के लिए, आप आसानी से Silero VAD पर स्विच कर सकते हैं:
- Silero VAD Extension section में वर्णित के अनुसार Silero VAD एक्सटेंशन इंस्टॉल करके
- Toggle VAD नोड के साथ VAD सक्षम करने के बाद, एक Set VAD Provider नोड जोड़ें और ड्रॉपडाउन से "Silero" चुनें
प्लगइन के साथ शामिल डेमो प्रोजेक्ट में, VAD डिफ़ॉल्ट रूप से सक्षम है। आप Demo Project पर डेमो कार्यान्वयन के बारे में अधिक जानकारी प्राप्त कर सकते हैं।
उदाहरण
ये उदाहरण दर्शाते हैं कि कैसे Runtime Speech Recognizer प्लगइन का उपयोग स्ट्रीमिंग और नॉन-स्ट्रीमिंग ऑडियो इनपुट दोनों के साथ किया जाए, उदाहरण के रूप में ऑडियो डेटा प्राप्त करने के लिए Runtime Audio Importer का उपयोग करते हुए। कृपया ध्यान दें कि उदाहरणों में दिखाए गए ऑडियो आयात सुविधाओं के समान सेट (जैसे कैप्चर करने योग्य साउंड वेव और ImportAudioFromFile) तक पहुंचने के लिए RuntimeAudioImporter का अलग से डाउनलोड करना आवश्यक है। ये उदाहरण केवल मूल अवधारणा को दर्शाने के लिए हैं और इनमें त्रुटि प्रबंधन शामिल नहीं है।