मुख्य कंटेंट तक स्किप करें

पहचान पैरामीटर सूची

ये पैरामीटर केवल तभी सेट किए जा सकते हैं जब पहचानकर्ता चल नहीं रहा हो।

यह Whisper में उपलब्ध पैरामीटरों की संपूर्ण सूची नहीं है। केवल सबसे महत्वपूर्ण पैरामीटर यहाँ प्रदर्शित किए गए हैं। यदि आवश्यक हो, तो इस सूची को अद्यतन किया जाएगा।

पहचान पैरामीटर सेट करें

स्पीच रिकग्निशन के लिए पैरामीटर सेट करता है। यदि आप केवल विशिष्ट पैरामीटर बदलना चाहते हैं, तो अलग-अलग सेटर फ़ंक्शन का उपयोग करने पर विचार करें।

स्ट्रीमिंग डिफ़ॉल्ट सेट करें

स्ट्रीमिंग स्पीच रिकग्निशन के लिए उपयुक्त डिफ़ॉल्ट पैरामीटर सेट करता है।

नॉन-स्ट्रीमिंग डिफ़ॉल्ट सेट करें

नॉन-स्ट्रीमिंग स्पीच रिकग्निशन के लिए उपयुक्त डिफ़ॉल्ट पैरामीटर सेट करता है।

थ्रेड्स की संख्या सेट करें

स्पीच रिकग्निशन के लिए उपयोग करने के लिए थ्रेड्स की संख्या सेट करता है। कोर की संख्या का उपयोग करने के लिए इस मान को 0 पर सेट करें।

भाषा सेट करें

स्पीच रिकग्निशन के लिए उपयोग करने के लिए भाषा सेट करता है। यह एडिटर सेटिंग्स में चयनित लैंग्वेज मॉडल द्वारा समर्थित होनी चाहिए।

भाषा को ऑटो पर सेट करने से पहचान की सटीकता और प्रदर्शन कम हो जाएगा।

पता चली भाषा प्राप्त करें

अंतिम पहचान से पता चली भाषा प्राप्त करता है। भाषा को एक एनम मान के रूप में लौटाता है।

नोट: यह फ़ंक्शन केवल तभी काम करता है जब पहचान की जा चुकी हो। यह ऑटो लौटाता है यदि भाषा का पता लगाना विफल रहा या नहीं किया गया। यह विशेष रूप से तब उपयोगी होता है जब ऑटो भाषा पहचान का उपयोग करके यह पहचानने के लिए कि वास्तव में कौन सी भाषा पहचानी गई थी।

भाषा कोड प्राप्त करें

एक भाषा एनम मान को उसके भाषा कोड स्ट्रिंग में परिवर्तित करता है (उदाहरण के लिए, En -> "en", Fr -> "fr", De -> "de")।

भाषा का पूरा नाम प्राप्त करें

एक भाषा एनम मान को उसके पूरे भाषा नाम में परिवर्तित करता है (उदाहरण के लिए, En -> "English", Fr -> "French", De -> "German")।

अंग्रेजी में अनुवाद सेट करें

सेट करता है कि क्या पहचाने गए शब्दों का अंग्रेजी में अनुवाद करना है। यदि सही है, तो लैंग्वेज मॉडल मल्टीलिंगुअल होना चाहिए।

स्टेप साइज़ सेट करें

मिलीसेकंड में स्टेप साइज़ सेट करता है। निर्धारित करता है कि ऑडियो डेटा को पहचान के लिए कितनी बार भेजना है। डिफ़ॉल्ट मान 5000 ms (5 सेकंड) है।

नो कॉन्टेक्स्ट सेट करें

सेट करता है कि क्या डिकोडर के लिए प्रारंभिक प्रॉम्प्ट के रूप में पिछले ट्रांसक्रिप्शन (यदि कोई हो) का उपयोग करना है।

सिंगल सेगमेंट सेट करें

सेट करता है कि क्या सिंगल सेगमेंट आउटपुट को फोर्स करना है (स्ट्रीमिंग के लिए उपयोगी)।

मैक्स टोकन्स सेट करें

प्रति पाठ खंड के लिए अधिकतम टोकन संख्या सेट करता है। कोई सीमा नहीं के लिए 0 का उपयोग करें।

गति बढ़ाएँ सेट करें

फेज वोकोडर का उपयोग करके पहचान को 2x तक गति देने के लिए सेट करता है। आउटपुट की गुणवत्ता में सुधार करने के लिए इसे false के रूप में सेट करें।

ऑडियो संदर्भ आकार सेट करें

ऑडियो संदर्भ का आकार सेट करता है। आउटपुट की गुणवत्ता में सुधार करने के लिए इसे 0 के रूप में सेट करें।

बढ़ाने के लिए तापमान सेट करें

डिकोडिंग विफल होने पर फॉलबैक करते समय बढ़ाने के लिए तापमान सेट करता है, जब नीचे दी गई किसी भी सीमा को पूरा नहीं किया जाता है।

एन्ट्रॉपी सीमा सेट करें

एन्ट्रॉपी सीमा सेट करता है। यदि संपीड़न अनुपात इस मान से अधिक है, तो डिकोडिंग को विफल मानें। OpenAI के "compression_ratio_threshold" के समान

रिक्त स्थान को दबाएँ सेट करें

आउटपुट में दिखाई देने वाले रिक्त स्थानों को दबाने के लिए सेट करता है।

गैर-भाषण टोकन दबाएँ सेट करें

आउटपुट में दिखाई देने वाले गैर-भाषण टोकनों को दबाने के लिए सेट करता है।

बीम आकार सेट करें

बीम खोज में बीमों की संख्या सेट करें। केवल तब लागू होता है जब तापमान शून्य हो।

प्रारंभिक प्रॉम्प्ट सेट करें

पहली विंडो के लिए प्रारंभिक प्रॉम्प्ट सेट करता है। इसका उपयोग पहचान के लिए संदर्भ प्रदान करने के लिए किया जा सकता है ताकि शब्दों को सही ढंग से भविष्यवाणी करने की संभावना अधिक हो, जैसे कि कस्टम शब्दावली या व्यक्तिवाचक संज्ञाएँ।

GPU त्वरण सेट करें

भाषण पहचान के लिए GPU त्वरण का उपयोग करने के लिए सेट करता है (फिलहाल केवल Windows पर लागू)।

GPU डिवाइस ID सेट करें

भाषण पहचान के लिए उपयोग करने के लिए GPU डिवाइस ID सेट करता है। डिफ़ॉल्ट मान 0 है। यह कई GPU वाले सिस्टम के लिए उपयोगी है ताकि यह निर्दिष्ट किया जा सके कि पहचान प्रक्रिया के लिए किस GPU का उपयोग किया जाना चाहिए। यदि निर्दिष्ट GPU डिवाइस ID अमान्य है, तो इसके बजाय पहला उपलब्ध GPU डिवाइस इंडेक्स उपयोग किया जाएगा।