मुख्य कंटेंट तक स्किप करें

अवलोकन

रनटाइम टेक्स्ट टू स्पीच डॉक्यूमेंटेशन

रनटाइम टेक्स्ट टू स्पीच एक प्लगइन है जो रियल-टाइम, ऑफ़लाइन, और क्रॉस-प्लेटफ़ॉर्म टेक्स्ट-टू-स्पीच सिंथेसिस को सक्षम बनाता है। यह 45 भाषाओं, 900 से अधिक आवाज़ों, और 140+ आवाज़ गुणों का समर्थन करता है – अब कोकोरो 🚀 की सुविधा के साथ, जो स्टूडियो-गुणवत्ता आउटपुट वाला एक अत्याधुनिक ओपन-सोर्स आवाज़ मॉडल परिवार है। यह प्लगइन तेज़, हल्का-फुल्का है, और गेम्स, ऐप्स, और प्रोजेक्ट्स के लिए आदर्श है जिन्हें प्राकृतिक लगने वाली वाक् की आवश्यकता होती है।

वर्तमान में, प्लगइन निम्नलिखित प्लेटफ़ॉर्म का समर्थन करता है: Windows, Linux, Mac, Android (जिसमें Meta Quest शामिल है), और iOS

📹 इसे कार्रवाई में देखें
YouTube डेमो देखें या सामान्य आवाज़ के नमूने Piper Samples पर परखें।

कोकोरो

प्लगइन कोकोरो आवाज़ मॉडल (कोकोरो v1.1 सहित) का भी समर्थन करता है - हाल ही में Hugging Face पर प्रकाशित उच्च-गुणवत्ता वाले ओपन-सोर्स TTS आर्किटेक्चर।

  • 8 भाषाओं में 152 उच्च-गुणवत्ता वाले मॉडल:
    🇺🇸 अंग्रेज़ी (US) • 🇬🇧 अंग्रेज़ी (UK) • 🇨🇳 सरलीकृत चीनी • 🇪🇸 स्पेनिश • 🇧🇷 पुर्तगाली • 🇮🇳 हिंदी • 🇫🇷 फ़्रेंच • 🇮🇹 इतालवी
  • लाइव पूर्वावलोकन उपलब्ध: कोकोरो आवाज़ों का परीक्षण करें
कोकोरो क्यों?

कोकोरो आवाज़ मॉडल वर्तमान में आज उपलब्ध उच्चतम-गुणवत्ता वाले ओपन-सोर्स TTS समाधानों में से हैं।

प्रमुख विशेषताएँ

  • पूर्ण ऑफ़लाइन सिंथेसिस: इंटरनेट कनेक्शन की आवश्यकता नहीं
  • एकाधिक सिंथेसिस मोड:
    • नियमित सिंथेसिस: पूरे टेक्स्ट के लिए संपूर्ण ऑडियो उत्पन्न करें
    • स्ट्रीमिंग सिंथेसिस: ऑडियो चंक्स को रियल-टाइम में प्रोसेस करें जैसे ही वे उत्पन्न होते हैं
  • रद्दीकरण समर्थन: किसी भी समय चल रहे सिंथेसिस ऑपरेशन को बाधित करें
  • क्रॉस-प्लेटफ़ॉर्म संगतता: सभी प्रमुख प्लेटफ़ॉर्म पर काम करता है
  • Blueprint और C++ समर्थन: दोनों वातावरणों में पूर्ण API पहुँच

स्थापना

आरंभ करने के लिए, पहली बार चलाने पर प्लगइन सेटिंग्स के माध्यम से आवाज़ मॉडल इंस्टॉल करें। स्थापना के बाद, आप अपने प्रोजेक्ट में प्लगइन का उपयोग शुरू कर सकते हैं। विस्तृत निर्देशों के लिए, प्लगइन का उपयोग कैसे करें पृष्ठ देखें।

प्लगइन विवरण

यह प्लगइन Piper, Kokoro, और ONNX Runtime लाइब्रेरीज़ का उपयोग करके रियल-टाइम टेक्स्ट-टू-स्पीच सिंथेसिस प्रदान करता है। प्लगइन आपको एडिटर के माध्यम से एकाधिक आवाज़ मॉडल डाउनलोड और प्रबंधित करने की अनुमति देता है, जिन्हें बाद में आपके प्रोजेक्ट के साथ पैकेज किया जा सकता है।

मुख्य कार्यक्षमता में सिंथेसिस के लिए टेक्स्ट इनपुट प्रोसेसिंग और आवाज़ मॉडल चयन शामिल है। कुछ आवाज़ मॉडल एकाधिक स्पीकर का समर्थन करते हैं - उदाहरण के लिए, अंग्रेज़ी LibriTTS में 900 से अधिक अलग-अलग स्पीकर शामिल हैं, जर्मन Thorsten Emotional में 7 स्पीकर हैं, आदि।

आउटपुट संबंधित सैंपल रेट और चैनलों की संख्या के साथ PCM ऑडियो डेटा (फ़्लोट फ़ॉर्मेट में) है। इस डेटा को दो तरीकों से प्रोसेस किया जा सकता है:

  • नियमित सिंथेसिस: सिंथेसिस समाप्त होने पर संपूर्ण ऑडियो डेटा प्राप्त करें
  • स्ट्रीमिंग सिंथेसिस: ऑडियो डेटा चंक्स में प्राप्त करें जैसे ही वे उत्पन्न होते हैं, जो रियल-टाइम प्रोसेसिंग की अनुमति देता है

इस कच्चे ऑडियो डेटा को एक बजने योग्य साउंड वेव में बदलने के लिए आमतौर पर Runtime Audio Importer प्लगइन की आवश्यकता होती है, जो नियमित और स्ट्रीमिंग दोनों प्लेबैक क्षमताएँ प्रदान करता है।

अतिरिक्त संसाधन