मुख्य कंटेंट तक स्किप करें

अवलोकन

Runtime Text To Speech डॉक्युमेंटेशन

Runtime Text To Speech एक प्लगइन है जो रियल-टाइम, ऑफ़लाइन, और क्रॉस-प्लेटफ़ॉर्म टेक्स्ट-टू-स्पीच सिंथेसिस को सक्षम करता है। यह 41 भाषाओं, 900 से अधिक आवाज़ों, और 190+ आवाज़ गुणवत्ताओं का समर्थन करता है – अब कोकोरो 🚀 के साथ, एक अत्याधुनिक ओपन-सोर्स आवाज़ मॉडल परिवार जिसमें स्टूडियो-गुणवत्ता वाला आउटपुट होता है। यह प्लगइन तेज़, हल्का है और गेम्स, ऐप्स, और प्रोजेक्ट्स के लिए आदर्श है जिनमें प्राकृतिक लगने वाली भाषण की आवश्यकता होती है।

वर्तमान में, प्लगइन निम्नलिखित प्लेटफ़ॉर्म्स का समर्थन करता है: विंडोज़, लिनक्स, मैक, एंड्रॉइड (जिसमें मेटा क्वेस्ट शामिल है), और आईओएस

📹 इसे एक्शन में देखें
YouTube डेमो देखें या पाइपर सैंपल्स पर जेनरिक आवाज़ सैंपल्स का परीक्षण करें।

कोकोरो

प्लगइन अब कोकोरो आवाज़ मॉडल्स को लागू करता है - हाई-क्वालिटी ओपन-सोर्स TTS आर्किटेक्चर जो हाल ही में हगिंग फेस पर प्रकाशित हुए हैं।

  • 8 भाषाओं में 49 हाई-क्वालिटी मॉडल्स:
    🇺🇸 अंग्रेज़ी (US) • 🇬🇧 अंग्रेज़ी (UK) • 🇨🇳 सरलीकृत चीनी • 🇪🇸 स्पेनिश • 🇧🇷 पुर्तगाली • 🇮🇳 हिंदी • 🇫🇷 फ्रेंच • 🇮🇹 इतालवी
  • लाइव प्रीव्यू उपलब्ध: कोकोरो आवाज़ों का परीक्षण करें
कोकोरो क्यों?

कोकोरो आवाज़ मॉडल्स वर्तमान में सबसे हाई-क्वालिटी ओपन-सोर्स TTS समाधानों में से एक हैं।

मुख्य विशेषताएँ

  • पूर्ण ऑफ़लाइन सिंथेसिस: इंटरनेट कनेक्शन की आवश्यकता नहीं
  • एकाधिक सिंथेसिस मोड:
    • नियमित सिंथेसिस: पूरे टेक्स्ट के लिए पूर्ण ऑडियो जनरेट करें
    • स्ट्रीमिंग सिंथेसिस: रियल-टाइम में ऑडियो चंक्स को प्रोसेस करें जैसे वे जनरेट होते हैं
  • कैंसिलेशन सपोर्ट: किसी भी समय चल रही सिंथेसिस ऑपरेशन्स को इंटरप्ट करें
  • क्रॉस-प्लेटफ़ॉर्म कम्पैटिबिलिटी: सभी प्रमुख प्लेटफ़ॉर्म्स पर काम करता है
  • ब्लूप्रिंट और C++ सपोर्ट: दोनों वातावरणों में पूर्ण API एक्सेस

इंस्टालेशन

शुरू करने के लिए, पहले रन पर प्लगइन सेटिंग्स के माध्यम से आवाज़ मॉडल्स इंस्टॉल करें। इंस्टालेशन के बाद, आप अपने प्रोजेक्ट में प्लगइन का उपयोग शुरू कर सकते हैं। विस्तृत निर्देशों के लिए, प्लगइन का उपयोग कैसे करें पेज देखें।

प्लगइन विवरण

यह प्लगइन पाइपर, कोकोरो, और ONNX रनटाइम लाइब्रेरीज़ का उपयोग करके रियल-टाइम टेक्स्ट-टू-स्पीच सिंथेसिस प्रदान करता है। प्लगइन आपको एडिटर के माध्यम से एकाधिक आवाज़ मॉडल्स डाउनलोड और मैनेज करने की अनुमति देता है, जिन्हें आपके प्रोजेक्ट के साथ पैकेज किया जा सकता है।

मुख्य कार्यक्षमता में टेक्स्ट इनपुट प्रोसेसिंग और सिंथेसिस के लिए आवाज़ मॉडल चयन शामिल है। कुछ आवाज़ मॉडल्स एकाधिक स्पीकर्स का समर्थन करते हैं - उदाहरण के लिए, अंग्रेज़ी लिब्रीTTS में 900 से अधिक अलग-अलग स्पीकर्स शामिल हैं, जर्मन थोरस्टन इमोशनल में 7 स्पीकर्स हैं, आदि।

आउटपुट PCM ऑडियो डेटा (फ्लोट फॉर्मेट में) है जिसमें संबंधित सैंपल रेट और चैनल्स की संख्या होती है। इस डेटा को दो तरीकों से प्रोसेस किया जा सकता है:

  • नियमित सिंथेसिस: सिंथेसिस पूरा होने पर पूर्ण ऑडियो डेटा प्राप्त करें
  • स्ट्रीमिंग सिंथेसिस: रियल-टाइम प्रोसेसिंग के लिए ऑडियो डेटा को चंक्स में प्राप्त करें जैसे वे जनरेट होते हैं

इस रॉ ऑडियो डेटा को एक प्लेयबल साउंड वेव में बदलने के लिए आमतौर पर Runtime Audio Importer प्लगइन की आवश्यकता होती है, जो नियमित और स्ट्रीमिंग प्लेबैक क्षमताएं प्रदान करता है।

अतिरिक्त संसाधन