Overview

Runtime Text To Speech एक ऐसा प्लगइन है जो रीयल-टाइम, ऑफ़लाइन और क्रॉस-प्लेटफ़ॉर्म टेक्स्ट-टू-स्पीच संश्लेषण सक्षम करता है। यह 51 भाषाओं, 2800 से अधिक आवाज़ों और 75 आवाज़ गुणवत्ताओं का समर्थन करता है, और अब Kokoro भी शामिल है, जो स्टूडियो-गुणवत्ता वाले आउटपुट के साथ एक ओपन-सोर्स वॉइस मॉडल परिवार है। यह प्लगइन तेज़, हल्का और प्राकृतिक-सुनाई देने वाले भाषण की आवश्यकता वाले गेम, ऐप्स और परियोजनाओं के लिए आदर्श है।
वर्तमान में, प्लगइन निम्नलिखित प्लेटफार्मों का समर्थन करता है: Windows, Linux, Mac, Android (Meta Quest सहित), और iOS।
📹 इसे क्रियान्वित होते देखें
YouTube Demo देखें या Piper Samples पर सामान्य आवाज़ के नमूनों का परीक्षण करें।
Kokoro
यह प्लगइन Kokoro वॉइस मॉडल्स (Kokoro v1.1 सहित) का भी समर्थन करता है - हाल ही में Hugging Face पर प्रकाशित उच्च-गुणवत्ता वाले ओपन-सोर्स TTS आर्किटेक्चर।
- 151 उच्च-गुणवत्ता वाले मॉडल 8 भाषाओं में:
🇺🇸 अंग्रेज़ी (US) • 🇬🇧 अंग्रेज़ी (UK) • 🇨🇳 सरलीकृत चीनी • 🇪🇸 स्पैनिश • 🇧🇷 पुर्तगाली • 🇮🇳 हिंदी • 🇫🇷 फ़्रेंच • 🇮🇹 इतालवी - लाइव पूर्वावलोकन उपलब्ध: Kokoro Voices का परीक्षण करें
Kokoro वॉइस मॉडल वर्तमान में आज उपलब्ध सर्वोच्च-गुणवत्ता वाले ओपन-सोर्स TTS समाधानों में से हैं।
मुख्य विशेषताएँ
- पूर्ण ऑफ़लाइन संश्लेषण: इंटरनेट कनेक्शन की आवश्यकता नहीं
- एकाधिक संश्लेषण मोड:
- नियमित संश्लेषण: संपूर्ण पाठ के लिए पूरा ऑडियो उत्पन्न करता है
- स्ट्रीमिंग संश्लेषण: जैसे-जैसे ऑडियो खंड उत्पन्न होते हैं, उन्हें रीयल-टाइम में संसाधित करता है
- रद्दीकरण समर्थन: किसी भी समय जारी संश्लेषण प्रक्रिया को बाधित करें
- क्रॉस-प्लेटफ़ॉर्म संगतता: सभी प्रमुख प्लेटफ़ॉर्म पर काम करता है
- Blueprint और C++ समर्थन: दोनों वातावरणों में पूर्ण API पहुँच
स्थापना
आरंभ करने के लिए, पहले रन पर प्लगइन सेटिंग्स के माध्यम से वॉइस मॉडल इंस्टॉल करें। इंस्टॉलेशन के बाद, आप अपनी परियोजना में प्लगइन का उपयोग करना शुरू कर सकते हैं। विस्तृत निर्देशों के लिए, प्लगइन का उपयोग कैसे करें पृष्ठ देखें।
प्लगइन विवरण
यह प्लगइन Piper, Kokoro, और ONNX Runtime लाइब्रेरीज़ का उपयोग करके रीयल-टाइम टेक्स्ट-टू-स्पीच संश्लेषण प्रदान करता है। यह प्लगइन आपको संपादक के माध्यम से एकाधिक वॉइस मॉडल डाउनलोड और प्रबंधित करने की अनुमति देता है, जिन्हें फिर आपकी परियोजना के साथ पैकेज किया जा सकता है।
मुख्य कार्यक्षमता में पाठ इनपुट प्रसंस्करण और संश्लेषण के लिए वॉइस मॉडल चयन शामिल है। कुछ वॉइस मॉडल एकाधिक वक्ताओं का समर्थन करते हैं - उदाहरण के लिए, English LibriTTS में 900 से अधिक विभिन्न वक्ता शामिल हैं, German Thorsten Emotional में 7 वक्ता हैं, आदि।
आउटपुट PCM ऑडियो डेटा (फ्लोट प्रारूप में) है जिसमें संगत नमूना दर और चैनलों की संख्या होती है। इस डेटा को दो तरीकों से संसाधित किया जा सकता है:
- नियमित संश्लेषण: जब संश्लेषण समाप्त हो जाए तो संपूर्ण ऑडियो डेटा प्राप्त करें
- स्ट्रीमिंग संश्लेषण: जैसे-जैसे वे उत्पन्न होते हैं, ऑडियो डेटा खंडों में प्राप्त करें, जो रीयल-टाइम प्रसंस्करण की अनुमति देता है
इस कच्चे ऑडियो डेटा को प्लेएबल ध्वनि तरंग में बदलने के लिए आमतौर पर Runtime Audio Importer प्लगइन की आवश्यकता होती है, जो नियमित और स्ट्रीमिंग प्लेबैक दोनों क्षमताएं प्रदान करता है।
अतिरिक्त संसाधन
- Fab पर प्राप्त करें
- उत्पाद वेबसाइट
- डेमो डाउनलोड करें (Windows)
- वीडियो ट्यूटोरियल
- प्लगइन सहायता और कस्टम विकास: [email protected] (टीमों और संगठनों के लिए अनुकूलित समाधान)