मुख्य कंटेंट तक स्किप करें

प्रदर्शन कैसे सुधारें

प्लगइन प्लेटफॉर्म के आधार पर अलग-अलग GPU एक्सेलेरेशन मेथड्स का उपयोग करता है: Windows पर Vulkan और Mac तथा iOS प्लेटफॉर्म्स पर Metal, जो पहचान प्रक्रिया को काफी तेज करते हैं। अन्य प्लेटफॉर्म्स पर, प्लगइन CPU + इंट्रिन्सिक्स का उपयोग एक्सेलेरेशन के लिए करता है। हालांकि, आप नीचे दिए गए सुझावों का पालन करके प्लगइन के प्रदर्शन को और सुधार सकते हैं:

  1. वॉइस एक्टिविटी डिटेक्शन (VAD) का उपयोग करें

    रिकॉग्नाइज़र की प्रतिक्रिया को बेहतर बनाने के लिए वॉइस एक्टिविटी डिटेक्शन का उपयोग करना अत्यधिक अनुशंसित है। यह उपयोगकर्ता के बोलना बंद करते ही स्पीच को पहचान के लिए भेजता है, न कि निश्चित समय अंतराल का इंतजार करता है। इस उद्देश्य के लिए Silero VAD विशेष रूप से अनुशंसित है। विस्तृत कार्यान्वयन निर्देशों के लिए, वॉइस एक्टिविटी डिटेक्शन डॉक्यूमेंटेशन देखें।

  2. स्टेप साइज़ कम करें

    डिफ़ॉल्ट रूप से, स्टेप साइज़ 5000 ms (5 सेकंड) होता है, जिसका अर्थ है कि कैप्चर के दौरान ऑडियो डेटा हर 5 सेकंड में पहचाना जाता है। यदि आप ऑडियो डेटा को अधिक बार पहचानना चाहते हैं, तो आप स्टेप साइज़ को कम कर सकते हैं, जैसे 500 ms (0.5 सेकंड)। हालांकि, यदि VAD सक्रिय है (जो आमतौर पर तब तक अनुशंसित है जब तक आपके पास निश्चित अंतराल की आवश्यकता न हो), तो स्टेप साइज़ को कम करने पर भरोसा न करने की सलाह दी जाती है। जब आप वॉइस एक्टिवेटेड कमांड रिकग्निशन या ऑटो-इनिशियलाइज़िंग वॉइस रिकग्निशन विथ फाइनल बफर प्रोसेसिंग जैसे सामान्य सेटअप में VAD का उपयोग करते हैं, तो स्पीच उपयोगकर्ता के बोलना बंद करते ही पहचान ली जाएगी।

  3. छोटे लैंग्वेज मॉडल का उपयोग करें

    आप मॉडल का आकार कम करने और प्रदर्शन को बेहतर बनाने के लिए Tiny Quantized (Q5_1) जैसे छोटे लैंग्वेज मॉडल का उपयोग करने पर विचार कर सकते हैं। लैंग्वेज मॉडल का चयन कैसे करें, इसके निर्देश यहाँ पाए जा सकते हैं।

  4. रिकग्निशन स्टेट मैनेजमेंट को ऑप्टिमाइज़ करें

    माइक्रोफोन इनपुट के साथ काम करते समय, स्पीच रिकॉग्नाइज़र को अनावश्यक रूप से बार-बार बंद और शुरू करने से बचें। StopSpeechRecognition और StartSpeechRecognition को बार-बार कॉल करने के बजाय, जिसमें रिसोर्स रिअलोकेशन की आवश्यकता होती है, ऑडियो इनपुट को सीधे नियंत्रित करने पर विचार करें। उदाहरण के लिए, कैप्चरेबल साउंड वेव के साथ, रिकग्निशन थ्रेड को एक्टिव रखते हुए ऑडियो फ्लो को मैनेज करने के लिए StopCapture और StartCapture का उपयोग करें।