मुख्य कंटेंट तक स्किप करें

अवलोकन

Runtime Text To Speech डॉक्यूमेंटेशन

Runtime Text To Speech एक प्लगइन है जो रियल-टाइम, ऑफ़लाइन, और क्रॉस-प्लेटफ़ॉर्म टेक्स्ट-टू-स्पीच सिंथेसिस को सक्षम बनाता है। यह 44 भाषाओं, 900 से अधिक आवाज़ों, और 200+ आवाज़ गुणों का समर्थन करता है – अब Kokoro 🚀 की सुविधा के साथ, जो स्टूडियो-गुणवत्ता आउटपुट वाला एक अत्याधुनिक ओपन-सोर्स आवाज़ मॉडल परिवार है। यह प्लगइन तेज़, हल्का-फुल्का है, और गेम्स, ऐप्स, और उन प्रोजेक्ट्स के लिए आदर्श है जिन्हें प्राकृतिक लगने वाली भाषण की आवश्यकता होती है।

वर्तमान में, प्लगइन निम्नलिखित प्लेटफ़ॉर्म का समर्थन करता है: Windows, Linux, Mac, Android (Meta Quest सहित), और iOS

📹 इसे कार्रवाई में देखें
YouTube डेमो देखें या सामान्य आवाज़ के नमूने Piper Samples पर परखें।

Kokoro

यह प्लगइन Kokoro आवाज़ मॉडल का भी समर्थन करता है - हाल ही में Hugging Face पर प्रकाशित उच्च-गुणवत्ता वाले ओपन-सोर्स TTS आर्किटेक्चर।

  • 8 भाषाओं में 49 उच्च-गुणवत्ता वाले मॉडल:
    🇺🇸 अंग्रेज़ी (US) • 🇬🇧 अंग्रेज़ी (UK) • 🇨🇳 सरलीकृत चीनी • 🇪🇸 स्पेनिश • 🇧🇷 पुर्तगाली • 🇮🇳 हिंदी • 🇫🇷 फ़्रेंच • 🇮🇹 इतालवी
  • लाइव पूर्वावलोकन उपलब्ध: Kokoro आवाज़ें परखें
Kokoro क्यों?

Kokoro आवाज़ मॉडल वर्तमान में आज उपलब्ध उच्चतम-गुणवत्ता वाले ओपन-सोर्स TTS समाधानों में से हैं।

मुख्य विशेषताएँ

  • पूर्ण ऑफ़लाइन सिंथेसिस: इंटरनेट कनेक्शन की आवश्यकता नहीं
  • एकाधिक सिंथेसिस मोड:
    • नियमित सिंथेसिस: पूरे टेक्स्ट के लिए संपूर्ण ऑडियो जनरेट करें
    • स्ट्रीमिंग सिंथेसिस: जैसे-जैसे ऑडियो चंक जनरेट होते हैं, उन्हें रियल-टाइम में प्रोसेस करें
  • रद्दीकरण समर्थन: किसी भी समय चल रहे सिंथेसिस ऑपरेशन को बाधित करें
  • क्रॉस-प्लेटफ़ॉर्म संगतता: सभी प्रमुख प्लेटफ़ॉर्म पर काम करता है
  • Blueprint और C++ समर्थन: दोनों वातावरणों में पूर्ण API पहुँच

स्थापना

आरंभ करने के लिए, पहली बार चलाने पर प्लगइन सेटिंग्स के माध्यम से आवाज़ मॉडल इंस्टॉल करें। स्थापना के बाद, आप अपने प्रोजेक्ट में प्लगइन का उपयोग शुरू कर सकते हैं। विस्तृत निर्देशों के लिए, प्लगइन का उपयोग कैसे करें पृष्ठ देखें।

प्लगइन विवरण

यह प्लगइन Piper, Kokoro, और ONNX Runtime लाइब्रेरीज़ का उपयोग करके रियल-टाइम टेक्स्ट-टू-स्पीच सिंथेसिस प्रदान करता है। यह प्लगइन आपको एडिटर के माध्यम से एकाधिक आवाज़ मॉडल डाउनलोड और प्रबंधित करने की अनुमति देता है, जिन्हें बाद में आपके प्रोजेक्ट के साथ पैकेज किया जा सकता है।

मुख्य कार्यक्षमता में सिंथेसिस के लिए टेक्स्ट इनपुट प्रोसेसिंग और आवाज़ मॉडल चयन शामिल है। कुछ आवाज़ मॉडल एकाधिक स्पीकर का समर्थन करते हैं - उदाहरण के लिए, English LibriTTS में 900 से अधिक अलग-अलग स्पीकर शामिल हैं, German Thorsten Emotional में 7 स्पीकर हैं, आदि। आउटपुट PCM ऑडियो डेटा (फ्लोट फॉर्मेट में) है जिसमें संबंधित सैंपल रेट और चैनलों की संख्या होती है। इस डेटा को दो तरीकों से प्रोसेस किया जा सकता है:

  • नियमित सिंथेसिस: सिंथेसिस पूरा होने पर पूरा ऑडियो डेटा प्राप्त करें
  • स्ट्रीमिंग सिंथेसिस: ऑडियो डेटा को चंक्स में प्राप्त करें जैसे वे जनरेट होते हैं, जिससे रीयल-टाइम प्रोसेसिंग की अनुमति मिलती है

इस रॉ ऑडियो डेटा को एक बजने योग्य साउंड वेव में बदलने के लिए आमतौर पर Runtime Audio Importer प्लगइन की आवश्यकता होती है, जो नियमित और स्ट्रीमिंग दोनों प्लेबैक क्षमताएं प्रदान करता है।

अतिरिक्त संसाधन