मुख्य कंटेंट तक स्किप करें

अवलोकन

रनटाइम टेक्स्ट टू स्पीच डॉक्यूमेंटेशन

रनटाइम टेक्स्ट टू स्पीच एक प्लगइन है जो रियल-टाइम, ऑफ़लाइन और क्रॉस-प्लेटफ़ॉर्म टेक्स्ट-टू-स्पीच सिंथेसिस को सक्षम बनाता है। यह 47 भाषाओं, 900 से अधिक आवाज़ों, और 170 आवाज़ गुणों का समर्थन करता है – अब कोकोरो 🚀 की सुविधा के साथ, जो स्टूडियो-गुणवत्ता आउटपुट वाला एक अत्याधुनिक ओपन-सोर्स आवाज़ मॉडल परिवार है। यह प्लगइन तेज़, हल्का है और उन गेम्स, ऐप्स और प्रोजेक्ट्स के लिए आदर्श है जिन्हें प्राकृतिक लगने वाली भाषण की आवश्यकता होती है।

वर्तमान में, प्लगइन निम्नलिखित प्लेटफ़ॉर्म का समर्थन करता है: विंडोज़, लिनक्स, मैक, एंड्रॉइड (मेटा क्वेस्ट सहित), और आईओएस

📹 इसे कार्रवाई में देखें
YouTube डेमो देखें या सामान्य आवाज़ के नमूने Piper Samples पर परखें।

कोकोरो

प्लगइन कोकोरो आवाज़ मॉडल (कोकोरो v1.1 सहित) का भी समर्थन करता है - हाल ही में हगिंग फेस पर प्रकाशित उच्च-गुणवत्ता वाले ओपन-सोर्स TTS आर्किटेक्चर।

  • 8 भाषाओं में 151 उच्च-गुणवत्ता वाले मॉडल:
    🇺🇸 अंग्रेज़ी (यूएस) • 🇬🇧 अंग्रेज़ी (यूके) • 🇨🇳 सरलीकृत चीनी • 🇪🇸 स्पेनिश • 🇧🇷 पुर्तगाली • 🇮🇳 हिंदी • 🇫🇷 फ्रेंच • 🇮🇹 इतालवी
  • लाइव पूर्वावलोकन उपलब्ध: कोकोरो आवाज़ों का परीक्षण करें
कोकोरो क्यों?

कोकोरो आवाज़ मॉडल वर्तमान में आज उपलब्ध उच्चतम-गुणवत्ता वाले ओपन-सोर्स TTS समाधानों में से हैं।

प्रमुख विशेषताएं

  • पूर्ण ऑफ़लाइन सिंथेसिस: इंटरनेट कनेक्शन की आवश्यकता नहीं
  • एकाधिक सिंथेसिस मोड:
    • नियमित सिंथेसिस: पूरे टेक्स्ट के लिए संपूर्ण ऑडियो जनरेट करें
    • स्ट्रीमिंग सिंथेसिस: जैसे-जैसे ऑडियो चंक जनरेट होते हैं, उन्हें रियल-टाइम में प्रोसेस करें
  • रद्दीकरण समर्थन: किसी भी समय चल रहे सिंथेसिस ऑपरेशन को बाधित करें
  • क्रॉस-प्लेटफ़ॉर्म संगतता: सभी प्रमुख प्लेटफ़ॉर्म पर काम करता है
  • ब्लूप्रिंट और C++ समर्थन: दोनों वातावरणों में पूर्ण API पहुंच

स्थापना

आरंभ करने के लिए, पहले रन पर प्लगइन सेटिंग्स के माध्यम से आवाज़ मॉडल इंस्टॉल करें। स्थापना के बाद, आप अपने प्रोजेक्ट में प्लगइन का उपयोग शुरू कर सकते हैं। विस्तृत निर्देशों के लिए, प्लगइन का उपयोग कैसे करें पृष्ठ देखें।

प्लगइन विवरण

यह प्लगइन Piper, Kokoro, और ONNX Runtime लाइब्रेरीज़ का उपयोग करके रियल-टाइम टेक्स्ट-टू-स्पीच सिंथेसिस प्रदान करता है। प्लगइन आपको एडिटर के माध्यम से एकाधिक आवाज़ मॉडल डाउनलोड और प्रबंधित करने की अनुमति देता है, जिन्हें बाद में आपके प्रोजेक्ट के साथ पैकेज किया जा सकता है।

मुख्य कार्यक्षमता में सिंथेसिस के लिए टेक्स्ट इनपुट प्रोसेसिंग और आवाज़ मॉडल चयन शामिल है। कुछ आवाज़ मॉडल एकाधिक स्पीकर का समर्थन करते हैं - उदाहरण के लिए, अंग्रेज़ी LibriTTS में 900 से अधिक अलग-अलग स्पीकर शामिल हैं, जर्मन Thorsten Emotional में 7 स्पीकर हैं, आदि।

आउटपुट संबंधित सैंपल रेट और चैनलों की संख्या के साथ PCM ऑडियो डेटा (फ्लोट फॉर्मेट में) है। इस डेटा को दो तरीकों से प्रोसेस किया जा सकता है:

  • नियमित सिंथेसिस: सिंथेसिस पूरा होने पर संपूर्ण ऑडियो डेटा प्राप्त करें
  • स्ट्रीमिंग सिंथेसिस: ऑडियो डेटा को चंक के रूप में प्राप्त करें जैसे वे जनरेट होते हैं, जो रियल-टाइम प्रोसेसिंग की अनुमति देता है

इस कच्चे ऑडियो डेटा को एक बजने योग्य साउंड वेव में बदलने के लिए आमतौर पर Runtime Audio Importer प्लगइन की आवश्यकता होती है, जो नियमित और स्ट्रीमिंग दोनों प्लेबैक क्षमताएं प्रदान करता है।

अतिरिक्त संसाधन