मुख्य कंटेंट तक स्किप करें

वॉइस एक्टिविटी डिटेक्शन

स्ट्रीमिंग साउंड वेव, और इसके डेरिवेटिव टाइप्स जैसे कैप्चर करने योग्य साउंड वेव, वॉइस एक्टिविटी डिटेक्शन (VAD) को सपोर्ट करते हैं। VAD आने वाले ऑडियो डेटा को फिल्टर करता है ताकि इंटरनल बफर केवल तभी भरा जाए जब वॉइस डिटेक्ट की जाती है।

प्लगइन दो VAD इम्प्लीमेंटेशन प्रदान करता है:

डिफॉल्ट इम्प्लीमेंटेशन libfvad का उपयोग करता है, जो एक हल्का वॉइस एक्टिविटी डिटेक्शन लाइब्रेरी है जो Runtime Audio Importer द्वारा सपोर्ट किए गए सभी प्लेटफॉर्म्स और इंजन वर्जन पर कुशलता से काम करता है।

बेसिक यूसेज

साउंड वेव बनाने के बाद VAD को एनेबल करने के लिए, ToggleVAD फंक्शन का उपयोग करें:

Toggle VAD नोड

VAD को सक्षम करने के बाद, आप इसे किसी भी समय रीसेट कर सकते हैं:

Reset VAD node

डिफ़ॉल्ट VAD सेटिंग्स

डिफॉल्ट VAD प्रदाता का उपयोग करते समय, आप VAD मोड को बदलकर इसकी आक्रामकता को समायोजित कर सकते हैं:

Set VAD Mode node

पैरामीटर मोड VAD द्वारा ऑडियो को फ़िल्टर करने की तीव्रता को नियंत्रित करता है। उच्च मान अधिक प्रतिबंधात्मक होते हैं, जिसका अर्थ है कि वे झूठी सकारात्मक रिपोर्ट करने की संभावना कम रखते हैं लेकिन कुछ भाषण को छोड़ सकते हैं।

VAD प्रदाता

ToggleVAD फ़ंक्शन के साथ VAD को सक्षम करने के बाद, आप अपनी आवश्यकताओं के अनुसार विभिन्न वॉइस एक्टिविटी डिटेक्शन प्रदाताओं के बीच चयन कर सकते हैं। डिफ़ॉल्ट प्रदाता अंतर्निहित है, जबकि Silero VAD जैसे अतिरिक्त प्रदाता एक्सटेंशन प्लगइन्स के माध्यम से उपलब्ध हैं।

Set VAD Provider node

सिलेरो VAD एक्सटेंशन

सिलेरो VAD न्यूरल नेटवर्क का उपयोग करके अधिक सटीक स्पीच डिटेक्शन प्रदान करता है। इसका उपयोग करने के लिए:

  1. सुनिश्चित करें कि Runtime Audio Importer प्लगइन आपके प्रोजेक्ट में पहले से इंस्टॉल है
  2. सिलेरो VAD एक्सटेंशन प्लगइन को Google Drive से डाउनलोड करें
  3. डाउनलोड की गई आर्काइव से फोल्डर को अपने प्रोजेक्ट के Plugins फोल्डर में एक्सट्रैक्ट करें (यदि यह फोल्डर मौजूद नहीं है तो इसे बनाएं)
  4. अपने प्रोजेक्ट को रीबिल्ड करें (इस एक्सटेंशन के लिए C++ प्रोजेक्ट की आवश्यकता होती है)
important
  • डिफॉल्ट VAD Runtime Audio Importer द्वारा समर्थित सभी इंजन वर्जन (UE 4.24, 4.25, 4.26, 4.27, 5.0, 5.1, 5.2, 5.3, 5.4, 5.5, और 5.6) के साथ काम करता है
  • सिलेरो VAD अनरियल इंजन 4.27 और सभी UE5 वर्जन (4.27, 5.0, 5.1, 5.2, 5.3, 5.4, 5.5, और 5.6) को सपोर्ट करता है
  • सिलेरो VAD वर्तमान में केवल विंडोज के लिए उपलब्ध है
  • यह एक्सटेंशन सोर्स कोड के रूप में प्रदान की जाती है और इसके उपयोग के लिए C++ प्रोजेक्ट की आवश्यकता होती है
  • प्लगइन्स को मैन्युअली बिल्ड करने के बारे में अधिक जानकारी के लिए, बिल्डिंग प्लगइन्स ट्यूटोरियल देखें

एक बार इंस्टॉल हो जाने पर, आप इसे सिलेरो क्लास प्रोवाइडर के साथ SetVADProvider फंक्शन का उपयोग करके अपने VAD प्रोवाइडर के रूप में चुन सकते हैं।

स्पीच स्टार्ट और एंड डिटेक्शन

वॉइस एक्टिविटी डिटेक्शन न केवल स्पीच की उपस्थिति का पता लगाता है, बल्कि यह स्पीच एक्टिविटी के शुरू और अंत का भी पता लगाने की अनुमति देता है। यह प्लेबैक या कैप्चर के दौरान स्पीच शुरू या समाप्त होने पर इवेंट्स को ट्रिगर करने के लिए उपयोगी है।

आप न्यूनतम स्पीच अवधि और साइलेंस अवधि जैसे पैरामीटर्स को एडजस्ट करके स्पीच स्टार्ट और एंड डिटेक्शन की संवेदनशीलता को कस्टमाइज़ कर सकते हैं। ये पैरामीटर्स झूठे पॉजिटिव्स, जैसे संक्षिप्त शोर या स्पीच के बीच बहुत छोटे पॉज को पकड़ने से बचने के लिए डिटेक्शन को फाइन-ट्यून करने में मदद करते हैं।

न्यूनतम स्पीच अवधि

न्यूनतम स्पीच अवधि पैरामीटर स्पीच स्टार्ट इवेंट को ट्रिगर करने के लिए आवश्यक निरंतर वॉइस एक्टिविटी की न्यूनतम मात्रा सेट करता है। यह उन संक्षिप्त शोरों को फ़िल्टर करने में मदद करता है जिन्हें स्पीच नहीं माना जाना चाहिए, यह सुनिश्चित करने के लिए कि केवल निरंतर वॉइस एक्टिविटी को ही पहचाना जाए। न्यूनतम स्पीच अवधि का डिफॉल्ट मान 300 मिलीसेकंड है।

सेट मिनिमम स्पीच ड्यूरेशन नोड

मौन अवधि

मौन अवधि पैरामीटर भाषण समाप्ति घटना को ट्रिगर करने के लिए आवश्यक मौन की अवधि निर्धारित करता है। यह शब्दों या वाक्यों के बीच प्राकृतिक विराम के दौरान भाषण पहचान को समय से पहले समाप्त होने से रोकता है। मौन अवधि का डिफ़ॉल्ट मान 500 मिलीसेकंड है।

Set Silence Duration node

भाषण प्रतिनिधियों से बाइंडिंग

आप विशिष्ट प्रतिनिधियों को बांध सकते हैं जब भाषण शुरू या समाप्त होता है। यह भाषण गतिविधि के आधार पर कस्टम व्यवहार को ट्रिगर करने के लिए उपयोगी है, जैसे कि पाठ मान्यता शुरू या बंद करना, या अन्य ऑडियो स्रोतों की मात्रा को समायोजित करना।

Bind Event To On Speech Started Bind Event To On Speech Ended

VAD प्रदाताओं की तुलना

डिफ़ॉल्ट VAD (libfvad)

फायदे:

  • हल्का और कुशल
  • सभी प्लेटफॉर्म पर काम करता है
  • न्यूनतम संसाधन उपयोग
  • मोबाइल और कम शक्ति वाले उपकरणों के लिए उपयुक्त

सबसे अच्छा:

  • शांत वातावरण में सरल आवाज पहचान
  • मोबाइल एप्लिकेशन
  • जहां प्रदर्शन प्राथमिकता हो
  • जब सार्वभौमिक प्लेटफॉर्म समर्थन आवश्यक हो