ऑडियो प्रसंस्करण गाइड
यह गाइड आपके लिप सिंक जनरेटरों को ऑडियो डेटा फीड करने के लिए विभिन्न ऑडियो इनपुट विधियों को सेट अप करने का तरीका कवर करती है। आगे बढ़ने से पहले सुनिश्चित करें कि आपने सेटअप गाइड पूरा कर लिया है।
ऑडियो इनपुट प्रसंस्करण
आपको ऑडियो इनपुट को प्रोसेस करने की एक विधि सेट अप करने की आवश्यकता है। यह आपके ऑडियो स्रोत के आधार पर कई तरीकों से किया जा सकता है।
- माइक्रोफोन (रियल-टाइम)
- Microphone (Playback)
- Text-to-Speech (Local)
- Text-to-Speech (External APIs)
- ऑडियो फ़ाइल/बफ़र से
- स्ट्रीमिंग ऑडियो बफ़र
यह दृष्टिकोण माइक्रोफोन में बोलते समय रियल-टाइम में लिप सिंक करता है:
- स्टैंडर्ड मॉडल
- यथार्थवादी मॉडल
- मूड-सक्षम यथार्थवादी मॉडल
- Runtime Audio Importer का उपयोग करके एक Capturable Sound Wave बनाएं
- ऑडियो कैप्चर करना शुरू करने से पहले,
OnPopulateAudioData
डेलीगेट से बाइंड करें - बाउंड फ़ंक्शन में, अपने Runtime Viseme Generator से
ProcessAudioData
को कॉल करें - माइक्रोफोन से ऑडियो कैप्चर करना शुरू करें
यथार्थवादी मॉडल स्टैंडर्ड मॉडल के समान ऑडियो प्रोसेसिंग वर्कफ़्लो का उपयोग करता है, लेकिन VisemeGenerator
के बजाय RealisticLipSyncGenerator
वेरिएबल के साथ।
मूड-सक्षम मॉडल समान ऑडियो प्रोसेसिंग वर्कफ़्लो का उपयोग करता है, लेकिन MoodMetaHumanLipSyncGenerator
वेरिएबल और अतिरिक्त मूड कॉन्फ़िगरेशन क्षमताओं के साथ।
यह दृष्टिकोण माइक्रोफोन से ऑडियो कैप्चर करता है, फिर उसे लिप सिंक के साथ प्लेबैक करता है:
- Standard Model
- Realistic Model
- Mood-Enabled Realistic Model
- Runtime Audio Importer का उपयोग करके एक Capturable Sound Wave बनाएं
- माइक्रोफोन से ऑडियो कैप्चर शुरू करें
- कैप्चर करने योग्य साउंड वेव को प्लेबैक करने से पहले, इसके
OnGeneratePCMData
डेलिगेट से बाइंड करें - बाउंड फ़ंक्शन में, अपने Runtime Viseme Generator से
ProcessAudioData
को कॉल करें
Realistic Model, Standard Model के समान ऑडियो प्रोसेसिंग वर्कफ़्लो का उपयोग करता है, लेकिन VisemeGenerator
के बजाय RealisticLipSyncGenerator
वेरिएबल के साथ।
Mood-Enabled Model समान ऑडियो प्रोसेसिंग वर्कफ़्लो का उपयोग करता है, लेकिन MoodMetaHumanLipSyncGenerator
वेरिएबल और अतिरिक्त मूड कॉन्फ़िगरेशन क्षमताओं के साथ।
- Regular
- स्ट्रीमिंग
यह दृष्टिकोण स्थानीय TTS का उपयोग करके पाठ से वाक् संश्लेषित करता है और होंक सिंक करता है:
- Standard Model
- Realistic Model
- Mood-Enabled Realistic Model
- वाक् उत्पन्न करने के लिए Runtime Text To Speech का उपयोग करें
- संश्लेषित ऑडियो को आयात करने के लिए Runtime Audio Importer का उपयोग करें
- आयातित ध्वनि तरंग को प्लेबैक करने से पहले, इसके
OnGeneratePCMData
प्रतिनिधि से बाइंड करें - बाउंड फ़ंक्शन में, अपने Runtime Viseme Generator से
ProcessAudioData
को कॉल करें
Runtime Text To Speech प्लगइन द्वारा प्रदान किया गया Local TTS वर्तमान में ONNX रनटाइम संघर्षों के कारण नियमित Realistic मॉडल के साथ समर्थित नहीं है। नियमित Realistic मॉडल के साथ टेक्स्ट-टू-स्पीच के लिए, विचार करें:
- बाहरी TTS सेवाओं (ElevenLabs, OpenAI, आदि) का उपयोग करना
- बाहरी स्थानीय TTS समाधान (Python-आधारित TTS, सिस्टम TTS APIs, या अन्य गैर-ONNX स्थानीय समाधान) का उपयोग करना
- इसके बजाय Standard Model या Mood-Enabled Realistic Model का उपयोग करना, जो Runtime Text To Speech प्लगइन का समर्थन करते हैं
- वाक् उत्पन्न करने के लिए Runtime Text To Speech का उपयोग करें
- संश्लेषित ऑडियो को आयात करने के लिए Runtime Audio Importer का उपयोग करें
- आयातित ध्वनि तरंग को प्लेबैक करने से पहले, इसके
OnGeneratePCMData
प्रतिनिधि से बाइंड करें - बाउंड फ़ंक्शन में, अपने Mood-Enabled Lip Sync Generator से
ProcessAudioData
को कॉल करें - पाठ सामग्री या वांछित भावनात्मक अभिव्यक्ति के आधार पर मूड सेटिंग्स कॉन्फ़िगर करें
मूड एकीकरण के साथ TTS:
- TTS जनरेशन से पहले या उसके दौरान उचित मूड सेट करें
- पाठ की भावनात्मक टोन से मेल खाने के लिए मूड तीव्रता समायोजित करें
- लंबी पाठ सामग्री के विभिन्न खंडों के लिए विभिन्न मूड का उपयोग करें
यह दृष्टिकोण रीयल-टाइम लिप सिंक के साथ स्ट्रीमिंग टेक्स्ट-टू-स्पीच सिंथेसिस का उपयोग करता है:
- स्टैंडर्ड मॉडल
- रियलिस्टिक मॉडल
- मूड-एनेबल्ड रियलिस्टिक मॉडल
- टेक्स्ट से स्ट्रीमिंग स्पीच जनरेट करने के लिए Runtime Text To Speech का उपयोग करें
- सिंथेसाइज़्ड ऑडियो को इम्पोर्ट करने के लिए Runtime Audio Importer का उपयोग करें
- स्ट्रीमिंग साउंड वेव को प्लेबैक करने से पहले, इसके
OnGeneratePCMData
डेलिगेट से बाइंड करें - बाउंड फ़ंक्शन में, अपने Runtime Viseme Generator से
ProcessAudioData
को कॉल करें
Runtime Text To Speech प्लगइन द्वारा प्रदान किया गया लोकल TTS वर्तमान में ONNX रनटाइम कॉन्फ्लिक्ट्स के कारण रेगुलर रियलिस्टिक मॉडल के साथ सपोर्टेड नहीं है। रेगुलर रियलिस्टिक मॉडल के साथ टेक्स्ट-टू-स्पीच के लिए, विचार करें:
- एक्सटर्नल TTS सर्विसेज (ElevenLabs, OpenAI, आदि) का उपयोग करना
- एक्सटर्नल लोकल TTS सॉल्यूशंस (Python-आधारित TTS, सिस्टम TTS APIs, या अन्य नॉन-ONNX लोकल सॉल्यूशंस) का उपयोग करना
- स्टैंडर्ड मॉडल या मूड-एनेबल्ड रियलिस्टिक मॉडल का उपयोग करना, जो Runtime Text To Speech प्लगइन को सपोर्ट करते हैं
- टेक्स्ट से स्ट्रीमिंग स्पीच जनरेट करने के लिए Runtime Text To Speech का उपयोग करें
- सिंथेसाइज़्ड ऑडियो को इम्पोर्ट करने के लिए Runtime Audio Importer का उपयोग करें
- स्ट्रीमिंग साउंड वेव को प्लेबैक करने से पहले, इसके
OnGeneratePCMData
डेलिगेट से बाइंड करें - बाउंड फ़ंक्शन में, अपने Mood-Enabled Lip Sync Generator से
ProcessAudioData
को कॉल करें - यदि आवश्यक हो तो स्ट्रीमिंग के दौरान मूड सेटिंग्स को डायनामिकली एडजस्ट करें
- Regular
- स्ट्रीमिंग
यह दृष्टिकोण Runtime AI Chatbot Integrator प्लगइन का उपयोग AI सेवाओं (OpenAI या ElevenLabs) से संश्लेषित वाक् उत्पन्न करने और होंक सिंक करने के लिए करता है:
- Standard Model
- Realistic Model
- Mood-Enabled Realistic Model
- बाहरी APIs (OpenAI, ElevenLabs, आदि) का उपयोग करके पाठ से वाक् उत्पन्न करने के लिए Runtime AI Chatbot Integrator का उपयोग करें
- संश्लेषित ऑडियो डेटा आयात करने के लिए Runtime Audio Importer का उपयोग करें
- आयातित साउंड वेव को प्लेबैक करने से पहले, इसके
OnGeneratePCMData
प्रतिनिधि से बाइंड करें - बाउंड फ़ंक्शन में, अपने Runtime Viseme Generator से
ProcessAudioData
को कॉल करें
Realistic Model, Standard Model के समान ऑडियो प्रसंस्करण वर्कफ़्लो का उपयोग करता है, लेकिन VisemeGenerator
के बजाय RealisticLipSyncGenerator
चर के साथ।
Mood-Enabled Model समान ऑडियो प्रसंस्करण वर्कफ़्लो का उपयोग करता है, लेकिन MoodMetaHumanLipSyncGenerator
चर और अतिरिक्त मूड कॉन्फ़िगरेशन क्षमताओं के साथ।
यह दृष्टिकोण एआई सेवाओं (OpenAI या ElevenLabs) से संश्लेषित स्ट्रीमिंग वाक् उत्पन्न करने और लिप सिंक करने के लिए Runtime AI Chatbot Integrator प्लगइन का उपयोग करता है:
- मानक मॉडल
- यथार्थवादी मॉडल
- मूड-सक्षम यथार्थवादी मॉडल
- स्ट्रीमिंग TTS एपीआई (जैसे ElevenLabs स्ट्रीमिंग एपीआई) से कनेक्ट करने के लिए Runtime AI Chatbot Integrator का उपयोग करें
- संश्लेषित ऑडियो डेटा आयात करने के लिए Runtime Audio Importer का उपयोग करें
- स्ट्रीमिंग साउंड वेव को प्लेबैक करने से पहले, इसके
OnGeneratePCMData
प्रतिनिधि से बाइंड करें - बाउंड फ़ंक्शन में, अपने Runtime Viseme Generator से
ProcessAudioData
को कॉल करें
यथार्थवादी मॉडल मानक मॉडल के समान ऑडियो प्रसंस्करण वर्कफ़्लो का उपयोग करता है, लेकिन VisemeGenerator
के बजाय RealisticLipSyncGenerator
वेरिएबल के साथ।
मूड-सक्षम मॉडल समान ऑडियो प्रसंस्करण वर्कफ़्लो का उपयोग करता है, लेकिन MoodMetaHumanLipSyncGenerator
वेरिएबल और अतिरिक्त मूड कॉन्फ़िगरेशन क्षमताओं के साथ।
यह दृष्टिकोण लिप सिंक के लिए पहले से रिकॉर्ड की गई ऑडियो फ़ाइलों या ऑडियो बफ़र का उपयोग करता है:
- मानक मॉडल
- यथार्थवादी मॉडल
- मूड-सक्षम यथार्थवादी मॉडल
- डिस्क या मेमोरी से ऑडियो फ़ाइल आयात करने के लिए Runtime Audio Importer का उपयोग करें
- आयात की गई ध्वनि तरंग को चलाने से पहले, इसके
OnGeneratePCMData
प्रतिनिधि से बाँधें - बंधे हुए फ़ंक्शन में, अपने Runtime Viseme Generator से
ProcessAudioData
को कॉल करें - आयात की गई ध्वनि तरंग को चलाएँ और लिप सिंक एनीमेशन देखें
यथार्थवादी मॉडल मानक मॉडल के समान ऑडियो प्रसंस्करण वर्कफ़्लो का उपयोग करता है, लेकिन VisemeGenerator
के बजाय RealisticLipSyncGenerator
चर के साथ।
मूड-सक्षम मॉडल समान ऑडियो प्रसंस्करण वर्कफ़्लो का उपयोग करता है, लेकिन MoodMetaHumanLipSyncGenerator
चर और अतिरिक्त मूड कॉन्फ़िगरेशन क्षमताओं के साथ।
स्ट्रीमिंग ऑडियो डेटा के लिए, आपको चाहिए:
- मानक मॉडल
- Realistic Model
- Mood-Enabled Realistic Model
- फ्लोट PCM प्रारूप में ऑडियो डेटा (फ़्लोटिंग-पॉइंट नमूनों की एक सरणी) आपके स्ट्रीमिंग स्रोत से उपलब्ध (या अधिक प्रारूपों का समर्थन करने के लिए Runtime Audio Importer का उपयोग करें)
- नमूना दर और चैनलों की संख्या
- जैसे ही ऑडियो चंक उपलब्ध होते हैं, इन मापदंडों के साथ अपने Runtime Viseme Generator से
ProcessAudioData
को कॉल करें
Realistic Model स्टैंडर्ड मॉडल के समान ऑडियो प्रोसेसिंग वर्कफ़्लो का उपयोग करता है, लेकिन VisemeGenerator
के बजाय RealisticLipSyncGenerator
वेरिएबल के साथ।
Mood-Enabled Model समान ऑडियो प्रोसेसिंग वर्कफ़्लो का उपयोग करता है, लेकिन MoodMetaHumanLipSyncGenerator
वेरिएबल और अतिरिक्त मूड कॉन्फ़िगरेशन क्षमताओं के साथ।
नोट: स्ट्रीमिंग ऑडियो स्रोतों का उपयोग करते समय, विकृत प्लेबैक से बचने के लिए ऑडियो प्लेबैक टाइमिंग को उचित रूप से प्रबंधित करना सुनिश्चित करें। अधिक जानकारी के लिए Streaming Sound Wave डॉक्यूमेंटेशन देखें।
प्रोसेसिंग परफॉर्मेंस टिप्स
-
चंक साइज़: यदि आप अधिक रिस्पॉन्सिव लिप सिंक के लिए छोटे चंक्स में ऑडियो डेटा प्रोसेस करना चाहते हैं, तो
SetNumSamplesPerChunk
फ़ंक्शन में गणना को एडजस्ट करें। उदाहरण के लिए, सैंपल रेट को 100 (हर 10 ms स्ट्रीमिंग) के बजाय 150 से विभाजित करने पर (हर ~6.67 ms स्ट्रीमिंग) अधिक बार लिप सिंक अपडेट प्रदान करेगा। -
बफ़र प्रबंधन: मूड-सक्षम मॉडल ऑडियो को 320-सैंपल फ़्रेम्स (16kHz पर 20ms) में प्रोसेस करता है। इष्टतम प्रदर्शन के लिए सुनिश्चित करें कि आपकी ऑडियो इनपुट टाइमिंग इसके साथ संरेखित हो।
-
जनरेटर पुनर्निर्माण: Realistic मॉडल्स के साथ विश्वसनीय ऑपरेशन के लिए, निष्क्रियता की अवधि के बाद नए ऑडियो डेटा को फ़ीड करना चाहते हैं तो हर बार जनरेटर को फिर से बनाएँ।
अगले कदम
एक बार जब आप ऑडियो प्रोसेसिंग सेट अप कर लेते हैं, तो आप चाह सकते हैं:
- अपने लिप सिंक व्यवहार को फाइन-ट्यून करने के लिए कॉन्फ़िगरेशन विकल्पों के बारे में जानें
- बढ़ी हुई अभिव्यक्ति के लिए हँसी एनीमेशन जोड़ें
- कॉन्फ़िगरेशन गाइड में वर्णित लेयरिंग तकनीकों का उपयोग करके लिप सिंक को मौजूदा फेशियल एनीमेशन के साथ संयोजित करें