मुख्य कंटेंट तक स्किप करें

प्लगइन का उपयोग कैसे करें

रनटाइम एआई चैटबॉट इंटीग्रेटर दो मुख्य कार्यक्षमताएं प्रदान करता है: टेक्स्ट-टू-टेक्स्ट चैट और टेक्स्ट-टू-स्पीच (टीटीएस)। दोनों सुविधाएं एक समान वर्कफ़्लो का पालन करती हैं:

  1. अपने एपीआई प्रदाता टोकन को पंजीकृत करें
  2. सुविधा-विशिष्ट सेटिंग्स कॉन्फ़िगर करें
  3. अनुरोध भेजें और प्रतिक्रियाओं को संसाधित करें

प्रदाता टोकन पंजीकृत करें

किसी भी अनुरोध को भेजने से पहले, RegisterProviderToken फ़ंक्शन का उपयोग करके अपने एपीआई प्रदाता टोकन को पंजीकृत करें।

note

ओल्लामा स्थानीय रूप से चलता है और इसे एपीआई टोकन की आवश्यकता नहीं होती है। ओल्लामा के लिए आप इस चरण को छोड़ सकते हैं।

ब्लूप्रिंट में प्रदाता टोकन पंजीकृत करें

टेक्स्ट-टू-टेक्स्ट चैट कार्यक्षमता

प्लगइन प्रत्येक प्रदाता के लिए दो चैट अनुरोध मोड का समर्थन करता है:

नॉन-स्ट्रीमिंग चैट अनुरोध

एक ही कॉल में पूर्ण प्रतिक्रिया प्राप्त करें।

Send OpenAI Chat Request

स्ट्रीमिंग चैट अनुरोध

अधिक गतिशील इंटरैक्शन के लिए रीयल-टाइम में प्रतिक्रिया चंक प्राप्त करें।

Send OpenAI Streaming Chat Request

टेक्स्ट-टू-स्पीच (TTS) कार्यक्षमता

अग्रणी TTS प्रदाताओं का उपयोग करके टेक्स्ट को उच्च-गुणवत्ता वाले स्पीच ऑडियो में बदलें। यह प्लगइन कच्चा ऑडियो डेटा (TArray<uint8>) लौटाता है जिसे आप अपने प्रोजेक्ट की आवश्यकताओं के अनुसार प्रोसेस कर सकते हैं।

जबकि नीचे दिए गए उदाहरण रनटाइम ऑडियो इम्पोर्टर प्लगइन (देखें ऑडियो इम्पोर्टिंग दस्तावेज़ीकरण) का उपयोग करके प्लेबैक के लिए ऑडियो प्रोसेसिंग प्रदर्शित करते हैं, रनटाइम एआई चैटबॉट इंटीग्रेटर लचीला होने के लिए डिज़ाइन किया गया है। प्लगइन केवल कच्चा ऑडियो डेटा लौटाता है, जो आपको अपने विशिष्ट उपयोग के मामले के लिए इसे कैसे प्रोसेस करें, इसकी पूरी स्वतंत्रता देता है, जिसमें ऑडियो प्लेबैक, फ़ाइल में सहेजना, आगे की ऑडियो प्रोसेसिंग, अन्य सिस्टम को ट्रांसमिट करना, कस्टम विज़ुअलाइज़ेशन, और बहुत कुछ शामिल हो सकता है।

नॉन-स्ट्रीमिंग TTS अनुरोध

नॉन-स्ट्रीमिंग TTS अनुरोध पूरे टेक्स्ट के प्रोसेस होने के बाद एकल प्रतिक्रिया में पूर्ण ऑडियो डेटा लौटाते हैं। यह दृष्टिकोण छोटे टेक्स्ट के लिए उपयुक्त है जहां पूर्ण ऑडियो की प्रतीक्षा करना समस्याग्रस्त नहीं है।

Send OpenAI TTS Request

स्ट्रीमिंग TTS अनुरोध

स्ट्रीमिंग TTS ऑडियो चंक्स को उनके जनरेट होते ही डिलीवर करता है, जिससे आप पूरे ऑडियो के सिंथेसाइज़ होने का इंतज़ार करने के बजाय डेटा को इंक्रीमेंटली प्रोसेस कर सकते हैं। यह लंबे टेक्स्ट के लिए महसूस होने वाली लेटेंसी को काफी कम कर देता है और रियल-टाइम एप्लिकेशन्स को सक्षम बनाता है। ElevenLabs स्ट्रीमिंग TTS डायनामिक टेक्स्ट जनरेशन परिदृश्यों के लिए एडवांस्ड चंक्ड स्ट्रीमिंग फंक्शन्स का भी समर्थन करता है।

Send OpenAI Streaming TTS Request

उपलब्ध आवाज़ें प्राप्त करना

कुछ TTS प्रदाता उपलब्ध आवाज़ों को प्रोग्रामेटिक रूप से खोजने के लिए वॉइस लिस्टिंग API प्रदान करते हैं।

Get Google Cloud Voices

ओल्लामा मॉडल्स की सूची बनाना

आप ListOllamaModels फ़ंक्शन का उपयोग करके अपने स्थानीय ओल्लामा इंस्टेंस से सभी उपलब्ध मॉडल्स के लिए क्वेरी कर सकते हैं। यह आपके यूआई में मॉडल पिकर को गतिशील रूप से भरने जैसे उपयोगी हो सकता है। GetModelNames हेल्पर सुविधा के लिए परिणाम से केवल नाम स्ट्रिंग्स निकालता है।

List Ollama Models

त्रुटि प्रबंधन

किसी भी अनुरोध को भेजते समय, अपने कॉलबैक में ErrorStatus की जाँच करके संभावित त्रुटियों को संभालना महत्वपूर्ण है। ErrorStatus अनुरोध के दौरान होने वाली किसी भी समस्या के बारे में जानकारी प्रदान करता है।

त्रुटि प्रबंधन

अनुरोध रद्द करना

यह प्लगइन आपको प्रगति में होने वाले टेक्स्ट-टू-टेक्स्ट और TTS दोनों प्रकार के अनुरोधों को रद्द करने की अनुमति देता है। यह तब उपयोगी हो सकता है जब आप किसी लंबे समय से चल रहे अनुरोध को बाधित करना चाहते हैं या वार्तालाप के प्रवाह को गतिशील रूप से बदलना चाहते हैं।

Cancel Request

सर्वोत्तम अभ्यास

  1. हमेशा अपने कॉलबैक में ErrorStatus की जांच करके संभावित त्रुटियों को संभालें
  2. प्रत्येक प्रदाता के लिए API दर सीमाओं और लागतों का ध्यान रखें
  3. लंबे रूप या इंटरैक्टिव वार्तालापों के लिए स्ट्रीमिंग मोड का उपयोग करें
  4. संसाधनों को कुशलतापूर्वक प्रबंधित करने के लिए अब आवश्यक नहीं होने वाले अनुरोधों को रद्द करने पर विचार करें
  5. कथित विलंबता को कम करने के लिए लंबे पाठों के लिए स्ट्रीमिंग TTS का उपयोग करें
  6. ऑडियो प्रसंस्करण के लिए, Runtime Audio Importer प्लगइन एक सुविधाजनक समाधान प्रदान करता है, लेकिन आप अपनी परियोजना की आवश्यकताओं के आधार पर कस्टम प्रसंस्करण लागू कर सकते हैं
  7. तर्क मॉडल (DeepSeek Reasoner, Grok) का उपयोग करते समय, तर्क और सामग्री दोनों आउटपुट को उचित रूप से संभालें
  8. TTS सुविधाओं को लागू करने से पहले आवाज सूची API का उपयोग करके उपलब्ध आवाजों की खोज करें
  9. ElevenLabs चंक्ड स्ट्रीमिंग के लिए: जब पाठ वृद्धिशील रूप से उत्पन्न होता है (जैसे AI प्रतिक्रियाएं) तो निरंतर मोड का उपयोग करें और पूर्व-निर्मित पाठ चंक्स के लिए तत्काल मोड का उपयोग करें
  10. प्रतिक्रियाशीलता और प्राकृतिक भाषण प्रवाह के बीच संतुलन बनाने के लिए निरंतर मोड के लिए उपयुक्त फ्लश टाइमआउट कॉन्फ़िगर करें
  11. अपनी एप्लिकेशन की रीयल-टाइम आवश्यकताओं के आधार पर इष्टतम चंक आकार और भेजने में देरी चुनें
  12. Ollama के लिए: मॉडल नामों को हार्डकोड करने के बजाय उपलब्ध मॉडलों को गतिशील रूप से खोजने के लिए ListOllamaModels का उपयोग करें

समस्या निवारण

  • सत्यापित करें कि प्रत्येक प्रदाता के लिए आपके API क्रेडेंशियल सही हैं
  • अपने इंटरनेट कनेक्शन की जांच करें
  • सुनिश्चित करें कि TTS सुविधाओं के साथ काम करते समय आपके द्वारा उपयोग की जाने वाली कोई भी ऑडियो प्रसंस्करण लाइब्रेरी (जैसे Runtime Audio Importer) ठीक से स्थापित है
  • TTS प्रतिक्रिया डेटा को संसाधित करते समय सत्यापित करें कि आप सही ऑडियो प्रारूप का उपयोग कर रहे हैं
  • स्ट्रीमिंग TTS के लिए, सुनिश्चित करें कि आप ऑडियो चंक्स को सही ढंग से संभाल रहे हैं
  • तर्क मॉडल के लिए, सुनिश्चित करें कि आप तर्क और सामग्री दोनों आउटपुट को संसाधित कर रहे हैं
  • मॉडल उपलब्धता और क्षमताओं के लिए प्रदाता-विशिष्ट दस्तावेज़ीकरण की जांच करें
  • ElevenLabs चंक्ड स्ट्रीमिंग के लिए: सुनिश्चित करें कि जब काम पूरा हो जाए तो सत्र को ठीक से बंद करने के लिए FinishChunkedStreaming को कॉल करें
  • निरंतर मोड समस्याओं के लिए: जांचें कि आपके पाठ में वाक्य सीमाएं ठीक से पहचानी गई हैं
  • रीयल-टाइम अनुप्रयोगों के लिए: अपनी विलंबता आवश्यकताओं के आधार पर चंक भेजने में देरी और फ्लश टाइमआउट समायोजित करें
  • Ollama के लिए: अनुरोध भेजने से पहले सुनिश्चित करें कि Ollama सर्वर कॉन्फ़िगर किए गए BaseUrl पर चल रहा है और सुलभ है