प्रदर्शन कैसे सुधारें

यह प्लगइन प्लेटफॉर्म के आधार पर विभिन्न GPU त्वरण विधियों का उपयोग करता है: Windows और Linux पर Vulkan और Mac तथा iOS प्लेटफॉर्म पर Metal, जो पहचान प्रक्रिया को काफी तेज करते हैं। अन्य प्लेटफॉर्म पर, प्लगइन त्वरण के लिए CPU + इंट्रिन्सिक्स का उपयोग करता है। हालाँकि, आप नीचे दिए गए सुझावों का पालन करके प्लगइन के प्रदर्शन को और भी बेहतर बना सकते हैं:

वॉयस एक्टिविटी डिटेक्शन (VAD) का उपयोग करें

पहचानकर्ता की प्रतिक्रियाशीलता में सुधार के लिए वॉयस एक्टिविटी डिटेक्शन का उपयोग करना अत्यधिक अनुशंसित है। यह उपयोगकर्ता के बोलना बंद करते ही पहचान के लिए स्पीच भेजता है, न कि निश्चित समय अंतराल की प्रतीक्षा करता है। इस उद्देश्य के लिए Silero VAD विशेष रूप से अनुशंसित है। विस्तृत कार्यान्वयन निर्देशों के लिए, वॉयस एक्टिविटी डिटेक्शन दस्तावेज़ीकरण देखें।
स्टेप साइज़ कम करें

डिफ़ॉल्ट रूप से, स्टेप साइज़ 5000 ms (5 सेकंड) होता है, जिसका अर्थ है कि कैप्चर के दौरान ऑडियो डेटा हर 5 सेकंड में पहचाना जाता है। यदि आप ऑडियो डेटा को अधिक बार पहचानना चाहते हैं, तो आप स्टेप साइज़ कम कर सकते हैं, जैसे 500 ms (0.5 सेकंड) तक। हालाँकि, यदि VAD सक्रिय है (जो आमतौर पर तब तक अनुशंसित है जब तक आपकी कोई विशिष्ट आवश्यकताएँ न हों जिन्हें निश्चित अंतराल की आवश्यकता हो), तो स्टेप साइज़ कम करने पर भरोसा न करने की सलाह दी जाती है। जब आप वॉयस एक्टिवेटेड कमांड रिकग्निशन या फाइनल बफर प्रोसेसिंग के साथ ऑटो-इनिशियलाइज़िंग वॉयस रिकग्निशन जैसे सामान्य सेटअप में VAD का उपयोग करते हैं, तो स्पीच उपयोगकर्ता के बोलना बंद करते ही पहचान ली जाएगी।
एक छोटे लैंग्वेज मॉडल का उपयोग करें

आप मॉडल का आकार कम करने और प्रदर्शन में सुधार के लिए एक छोटे लैंग्वेज मॉडल का उपयोग करने पर विचार कर सकते हैं, जैसे Tiny Quantized (Q5_1)। लैंग्वेज मॉडल कैसे चुनें, इसके निर्देश यहाँ पाए जा सकते हैं।
पहचान स्थिति प्रबंधन को अनुकूलित करें

माइक्रोफोन इनपुट के साथ काम करते समय, स्पीच रिकग्नाइज़र के अनावश्यक स्टॉप और स्टार्ट से बचें। StopSpeechRecognition और StartSpeechRecognition को बार-बार कॉल करने के बजाय, जिसके लिए संसाधनों का पुनः आवंटन आवश्यक होता है, ऑडियो इनपुट को सीधे नियंत्रित करने पर विचार करें। उदाहरण के लिए, एक कैप्चर करने योग्य साउंड वेव के साथ, पहचान थ्रेड को सक्रिय रखते हुए ऑडियो प्रवाह को प्रबंधित करने के लिए StopCapture और StartCapture का उपयोग करें।