प्लगइन कॉन्फ़िगरेशन
मॉडल कॉन्फ़िगरेशन
स्टैंडर्ड मॉडल कॉन्फ़िगरेशन
Create Runtime Viseme Generator
नोड डिफ़ॉल्ट सेटिंग्स का उपयोग करता है जो अधिकांश परिदृश्यों के लिए अच्छी तरह से काम करती हैं। कॉन्फ़िगरेशन एनीमेशन ब्लूप्रिंट ब्लेंडिंग नोड गुणों के माध्यम से संभाला जाता है।
एनीमेशन ब्लूप्रिंट कॉन्फ़िगरेशन विकल्पों के लिए, नीचे Lip Sync Configuration अनुभाग देखें।
रियलिस्टिक मॉडल कॉन्फ़िगरेशन
Create Realistic MetaHuman Lip Sync Generator
नोड एक वैकल्पिक Configuration पैरामीटर स्वीकार करता है जो आपको जनरेटर के व्यवहार को अनुकूलित करने की अनुमति देता है:
मॉडल प्रकार
Model Type सेटिंग निर्धारित करती है कि रियलिस्टिक मॉडल के किस संस्करण का उपयोग करना है:
मॉडल प्रकार | प्रदर्शन | दृश्य गुणवत्ता | शोर संभालना | अनुशंसित उपयोग के मामले |
---|---|---|---|---|
अत्यधिक अनुकूलित (डिफ़ॉल्ट) | उच्चतम प्रदर्शन, सबसे कम CPU उपयोग | अच्छी गुणवत्ता | पृष्ठभूमि शोर या गैर-आवाज़ ध्वनियों के साथ ध्यान देने योग्य मुंह की हरकतें दिखा सकता है | स्वच्छ ऑडियो वातावरण, प्रदर्शन-महत्वपूर्ण परिदृश्य |
अर्ध-अनुकूलित | अच्छा प्रदर्शन, मध्यम CPU उपयोग | उच्च गुणवत्ता | शोर भरे ऑडियो के साथ बेहतर स्थिरता | संतुलित प्रदर्शन और गुणवत्ता, मिश्रित ऑडियो स्थितियाँ |
मूल | आधुनिक CPUs पर रियल-टाइम उपयोग के लिए उपयुक्त | उच्चतम गुणवत्ता | पृष्ठभूमि शोर और गैर-आवाज़ ध्वनियों के साथ सबसे स्थिर | उच्च-गुणवत्ता वाले प्रोडक्शन, शोर भरे ऑडियो वातावरण, जब अधिकतम सटीकता की आवश्यकता हो |
प्रदर्शन सेटिंग्स
Intra Op Threads: आंतरिक मॉडल प्रसंस्करण संचालन के लिए उपयोग किए जाने वाले थ्रेड्स की संख्या को नियंत्रित करता है।
- 0 (डिफ़ॉल्ट/स्वचालित): स्वचालित पहचान का उपयोग करता है (आमतौर पर उपलब्ध CPU कोर का 1/4, अधिकतम 4)
- 1-16: मैन्युअल रूप से थ्रेड काउंट निर्दिष्ट करें। उच्च मान मल्टी-कोर सिस्टम पर प्रदर्शन में सुधार कर सकते हैं लेकिन अधिक CPU का उपयोग करते हैं
Inter Op Threads: विभिन्न मॉडल संचालन के समानांतर निष्पादन के लिए उपयोग किए जाने वाले थ्रेड्स की संख्या को नियंत्रित करता है।
- 0 (डिफ़ॉल्ट/स्वचालित): स्वचालित पहचान का उपयोग करता है (आमतौर पर उपलब्ध CPU कोर का 1/8, अधिकतम 2)
- 1-8: मैन्युअल रूप से थ्रेड काउंट निर्दिष्ट करें। आमतौर पर रियल-टाइम प्रोसेसिंग के लिए कम रखा जाता है
प्रोसेसिंग चंक साइज़
Processing Chunk Size निर्धारित करता है कि प्रत्येक इनफेरेंस स्टेप में कितने सैंपल प्रोसेस किए जाते हैं। डिफ़ॉल्ट मान 160 सैंपल है (16kHz पर ऑडियो के 10ms):
- छोटे मान अधिक बार अपडेट प्रदान करते हैं लेकिन CPU उपयोग बढ़ाते हैं
- बड़े मान CPU लोड को कम करते हैं लेकिन लिप सिंक की प्रतिक्रियाशीलता को कम कर सकते हैं
- इष्टतम संरेखण के लिए 160 के गुणकों का उपयोग करने की सिफारिश की जाती है
मूड-सक्षम मॉडल कॉन्फ़िगरेशन
Create Realistic MetaHuman Lip Sync With Mood Generator
नोड बेसिक रियलिस्टिक मॉडल से परे अतिरिक्त कॉन्फ़िगरेशन विकल्प प्रदान करता है:
बेसिक कॉन्फ़िगरेशन
लुकअहेड एमएस: बेहतर लिप सिंक सटीकता के लिए लुकअहेड समय मिलीसेकंड में।
- डिफ़ॉल्ट: 80ms
- रेंज: 20ms से 200ms (20 से विभाज्य होना चाहिए)
- उच्च मान बेहतर सिंक्रनाइज़ेशन प्रदान करते हैं लेकिन विलंबता बढ़ाते हैं
आउटपुट प्रकार: नियंत्रित करता है कि कौन से चेहरे के नियंत्रण उत्पन्न होते हैं।
- फुल फेस: सभी 81 चेहरे के नियंत्रण (भौहें, आँखें, नाक, मुँह, जबड़ा, जीभ)
- माउथ ओनली: केवल मुँह, जबड़ा और जीभ से संबंधित नियंत्रण
प्रदर्शन सेटिंग्स: नियमित यथार्थवादी मॉडल के समान इंट्रा ऑप थ्रेड्स और इंटर ऑप थ्रेड्स सेटिंग्स का उपयोग करता है।
मूड सेटिंग्स
उपलब्ध मूड:
- न्यूट्रल, हैप्पी, सैड, डिस्गस्ट, एंगर, सरप्राइज, फियर
- कॉन्फिडेंट, एक्साइटेड, बोर्ड, प्लेफुल, कन्फ्यूज्ड
मूड इंटेंसिटी: नियंत्रित करती है कि मूड एनीमेशन को कितनी दृढ़ता से प्रभावित करता है (0.0 से 1.0)
रनटाइम मूड कंट्रोल
आप रनटाइम के दौरान निम्नलिखित फ़ंक्शनों का उपयोग करके मूड सेटिंग्स समायोजित कर सकते हैं:
- सेट मूड: वर्तमान मूड प्रकार बदलें
- सेट मूड इंटेंसिटी: समायोजित करें कि मूड एनीमेशन को कितनी दृढ़ता से प्रभावित करता है (0.0 से 1.0)
- सेट लुकअहेड एमएस: सिंक्रनाइज़ेशन के लिए लुकअहेड समय संशोधित करें
- सेट आउटपुट प्रकार: फुल फेस और माउथ ओनली नियंत्रणों के बीच स्विच करें
मूड चयन गाइड
अपनी सामग्री के आधार पर उपयुक्त मूड चुनें:
मूड | सर्वोत्तम उपयोग | विशिष्ट तीव्रता सीमा |
---|---|---|
न्यूट्रल | सामान्य बातचीत, वर्णन, डिफ़ॉल्ट स्थिति | 0.5 - 1.0 |
हैप्पी | सकारात्मक सामग्री, हंसमुख संवाद, उत्सव | 0.6 - 1.0 |
सैड | उदास सामग्री, भावनात्मक दृश्य, गंभीर क्षण | 0.5 - 0.9 |
डिस्गस्ट | नकारात्मक प्रतिक्रियाएं, अरुचिकर सामग्री, अस्वीकृति | 0.4 - 0.8 |
एंगर | आक्रामक संवाद, टकराव वाले दृश्य, निराशा | 0.6 - 1.0 |
सरप्राइज | अप्रत्याशित घटनाएं, रहस्योद्घाटन, सदमे की प्रतिक्रियाएं | 0.7 - 1.0 |
फियर | खतरनाक स्थितियां, चिंता, घबराया हुआ संवाद | 0.5 - 0.9 |
कॉन्फिडेंट | पेशेवर प्रस्तुतियां, नेतृत्व संवाद, मुखर भाषण | 0.7 - 1.0 |
एक्साइटेड | ऊर्जावान सामग्री, घोषणाएं, उत्साही संवाद | 0.8 - 1.0 |
बोर्ड | एकरस सामग्री, अरुचि संवाद, थका हुआ भाषण | 0.3 - 0.7 |
प्लेफुल | आकस्मिक बातचीत, हास्य, हल्के-फुल्के इंटरैक्शन | 0.6 - 0.9 |
कन्फ्यूज्ड | प्रश्न-प्रधान संवाद, अनिश्चितता, हैरानी | 0.4 - 0.8 |
एनीमेशन ब्लूप्रिंट कॉन्फिगरेशन
लिप सिंक कॉन्फिगरेशन
- Standard Model
- Realistic Models
Blend Runtime MetaHuman Lip Sync
नोड में इसके गुण पैनल में कॉन्फ़िगरेशन विकल्प हैं:
गुण | डिफ़ॉल्ट | विवरण |
---|---|---|
इंटरपोलेशन स्पीड | 25 | नियंत्रित करता है कि विसेम्स के बीच होंठों की गतिविधियाँ कितनी तेज़ी से संक्रमण करती हैं। उच्च मान तेज़ और अचानक संक्रमण का परिणाम देते हैं। |
रीसेट समय | 0.2 | सेकंड में वह अवधि जिसके बाद लिप सिंक रीसेट हो जाता है। ऑडियो बंद होने के बाद लिप सिंक को जारी रहने से रोकने के लिए यह उपयोगी है। |
Blend Realistic MetaHuman Lip Sync
नोड में इसके गुण पैनल में कॉन्फ़िगरेशन विकल्प हैं:
गुण | डिफ़ॉल्ट | विवरण |
---|---|---|
इंटरपोलेशन स्पीड | 30 | नियंत्रित करता है कि स्थितियों के बीच होंठों की गतिविधियाँ कितनी तेज़ी से संक्रमण करती हैं। उच्च मान तेज़ और अचानक संक्रमण का परिणाम देते हैं। |
रीसेट समय | 0.2 | सेकंड में वह अवधि जिसके बाद लिप सिंक रीसेट हो जाता है। ऑडियो बंद होने के बाद लिप सिंक को जारी रहने से रोकने के लिए यह उपयोगी है। |
नोट: नियमित और मूड-सक्षम यथार्थवादी मॉडल दोनों के लिए एक ही एनीमेशन ब्लूप्रिंट नोड का उपयोग किया जाता है।
हँसी एनीमेशन
आप हँसी एनीमेशन भी जोड़ सकते हैं जो ऑडियो में पहचानी गई हँसी पर गतिशील रूप से प्रतिक्रिया देगा:
Blend Runtime MetaHuman Laughter
नोड जोड़ें- अपने
RuntimeVisemeGenerator
वेरिएबल कोViseme Generator
पिन से कनेक्ट करें - यदि आप पहले से ही लिप सिंक का उपयोग कर रहे हैं:
Blend Runtime MetaHuman Lip Sync
नोड के आउटपुट कोBlend Runtime MetaHuman Laughter
नोड केSource Pose
से कनेक्ट करेंBlend Runtime MetaHuman Laughter
नोड के आउटपुट कोOutput Pose
केResult
पिन से कनेक्ट करें
- यदि लिप सिंक के बिना केवल हँसी का उपयोग कर रहे हैं:
- अपने स्रोत पोज़ को सीधे
Blend Runtime MetaHuman Laughter
नोड केSource Pose
से कनेक्ट करें - आउटपुट को
Result
पिन से कनेक्ट करें
- अपने स्रोत पोज़ को सीधे
जब ऑडियो में हँसी पहचानी जाती है, तो आपका कैरेक्टर उसी के अनुसार गतिशील रूप से एनिमेट होगा:
हँसी कॉन्फ़िगरेशन
Blend Runtime MetaHuman Laughter
नोड के अपने कॉन्फ़िगरेशन विकल्प हैं:
गुण | डिफ़ॉल्ट | विवरण |
---|---|---|
इंटरपोलेशन स्पीड | 25 | नियंत्रित करता है कि हँसी एनीमेशन के बीच होंठों की गतिविधियाँ कितनी तेज़ी से संक्रमण करती हैं। उच्च मान तेज़ और अचानक संक्रमण का परिणाम देते हैं। |
रीसेट समय | 0.2 | सेकंड में वह अवधि जिसके बाद हँसी रीसेट हो जाती है। ऑडियो बंद होने के बाद हँसी को जारी रहने से रोकने के लिए यह उपयोगी है। |
अधिकतम हँसी वज़न | 0.7 | हँसी एनीमेशन की अधिकतम तीव्रता को स्केल करता है (0.0 - 1.0)। |
नोट: हंसी का पता लगाना वर्तमान में केवल स्टैंडर्ड मॉडल के साथ उपलब्ध है। |
मौजूदा एनिमेशन के साथ संयोजन
बॉडी एनिमेशन और कस्टम फेशियल एनिमेशन को ओवरराइड किए बिना उनके साथ लिप सिंक और हंसी को लागू करने के लिए:
- अपने बॉडी एनिमेशन और फाइनल आउटपुट के बीच एक
Layered blend per bone
नोड जोड़ें। सुनिश्चित करें किUse Attached Parent
सही है। - लेयर सेटअप कॉन्फ़िगर करें:
Layer Setup
ऐरे में 1 आइटम जोड़ें- लेयर के लिए
Branch Filters
में 3 आइटम जोड़ें, निम्नलिखितBone Name
के साथ:FACIAL_C_FacialRoot
FACIAL_C_Neck2Root
FACIAL_C_Neck1Root
- कस्टम फेशियल एनिमेशन के लिए महत्वपूर्ण:
Curve Blend Option
में, "Use Max Value" चुनें। यह कस्टम फेशियल एनिमेशन (एक्सप्रेशन, इमोशन, आदि) को लिप सिंक के ऊपर ठीक से लेयर करने की अनुमति देता है। - कनेक्शन बनाएँ:
- मौजूदा एनिमेशन (जैसे
BodyPose
) →Base Pose
इनपुट - फेशियल एनिमेशन आउटपुट (लिप सिंक और/या हंसी नोड्स से) →
Blend Poses 0
इनपुट - लेयर्ड ब्लेंड नोड → फाइनल
Result
पोज़
- मौजूदा एनिमेशन (जैसे
लिप सिंक व्यवहार को बारीकी से ट्यून करना
जीभ बाहर निकलने का नियंत्रण
स्टैंडर्ड लिप सिंक मॉडल में, आप कुछ फोनेम के दौरान अत्यधिक आगे की ओर जीभ की हलचल देख सकते हैं। जीभ बाहर निकलने को नियंत्रित करने के लिए:
- अपने लिप सिंक ब्लेंड नोड के बाद, एक
Modify Curve
नोड जोड़ें Modify Curve
नोड पर राइट-क्लिक करें और Add Curve Pin चुनें- नाम
CTRL_expressions_tongueOut
के साथ एक कर्व पिन जोड़ें - नोड की Apply Mode प्रॉपर्टी को Scale पर सेट करें
- जीभ के एक्सटेंशन को नियंत्रित करने के लिए Value पैरामीटर समायोजित करें (उदाहरण के लिए, 20% तक प्रोट्रूज़न कम करने के लिए 0.8)
जबड़ा खुलने का नियंत्रण
यथार्थवादी लिप सिंक आपकी ऑडियो सामग्री और विज़ुअल आवश्यकताओं के आधार पर अत्यधिक उत्तरदायी जबड़े की हलचलें उत्पन्न कर सकता है। जबड़ा खुलने की तीव्रता को समायोजित करने के लिए:
- अपने लिप सिंक ब्लेंड नोड के बाद, एक
Modify Curve
नोड जोड़ें Modify Curve
नोड पर राइट-क्लिक करें और Add Curve Pin चुनें- नाम
CTRL_expressions_jawOpen
के साथ एक कर्व पिन जोड़ें - नोड की Apply Mode प्रॉपर्टी को Scale पर सेट करें
- जबड़ा खुलने की रेंज को नियंत्रित करने के लिए Value पैरामीटर समायोजित करें (उदाहरण के लिए, जबड़े की हलचल को 10% कम करने के लिए 0.9)
मूड-विशिष्ट बारीक ट्यूनिंग
मूड-सक्षम मॉडल के लिए, आप विशिष्ट भावनात्मक अभिव्यक्तियों को बारीकी से ट्यून कर सकते हैं:
आइब्रो कंट्रोल:
CTRL_L_brow_raiseIn.ty
/CTRL_R_brow_raiseIn.ty
- इनर आइब्रो रेज़CTRL_L_brow_raiseOut.ty
/CTRL_R_brow_raiseOut.ty
- आउटर आइब्रो रेज़CTRL_L_brow_down.ty
/CTRL_R_brow_down.ty
- आइब्रो लोअरिंग
आई एक्सप्रेशन कंट्रोल:
CTRL_L_eye_squintInner.ty
/CTRL_R_eye_squintInner.ty
- आई स्क्विंटिंगCTRL_L_eye_cheekRaise.ty
/CTRL_R_eye_cheekRaise.ty
- चीक रेज़िंग
मॉडल तुलना और चयन
मॉडल के बीच चयन
अपनी परियोजना के लिए किस लिप सिंक मॉडल का उपयोग करना है, यह तय करते समय इन कारकों पर विचार करें:
विचार | मानक मॉडल | यथार्थवादी मॉडल | मूड-सक्षम यथार्थवादी मॉडल |
---|---|---|---|
चरित्र संगतता | मेटाह्यूमन और सभी कस्टम चरित्र प्रकार | केवल मेटाह्यूमन | केवल मेटाह्यूमन |
दृश्य गुणवत्ता | कुशल प्रदर्शन के साथ अच्छी लिप सिंक | अधिक प्राकृतिक मुंह की हरकतों के साथ बढ़ी हुई यथार्थवादिता | भावनात्मक अभिव्यक्तियों के साथ बढ़ी हुई यथार्थवादिता |
प्रदर्शन | मोबाइल/VR सहित सभी प्लेटफार्मों के लिए अनुकूलित | उच्च संसाधन आवश्यकताएं | उच्च संसाधन आवश्यकताएं |
सुविधाएं | 14 विसेम्स, हंसी का पता लगाना | 81 फेशियल नियंत्रण, 3 अनुकूलन स्तर | 81 फेशियल नियंत्रण, 12 मूड, विन्यास योग्य आउटपुट |
प्लेटफ़ॉर्म समर्थन | विंडोज, एंड्रॉइड, क्वेस्ट | विंडोज, मैक, iOS, लिनक्स | विंडोज, मैक, iOS, लिनक्स |
उपयोग के मामले | सामान्य अनुप्रयोग, गेम, VR/AR, मोबाइल | सिनेमाई अनुभव, क्लोज-अप इंटरैक्शन | भावनात्मक कहानी कहना, उन्नत चरित्र इंटरैक्शन |
इंजन संस्करण संगतता
यदि आप Unreal Engine 5.2 का उपयोग कर रहे हैं, तो UE की रीसैंपलिंग लाइब्रेरी में एक बग के कारण यथार्थवादी मॉडल सही ढंग से काम नहीं कर सकते हैं। UE 5.2 उपयोगकर्ताओं के लिए जिन्हें विश्वसनीय लिप सिंक कार्यक्षमता की आवश्यकता है, कृपया इसके बजाय मानक मॉडल का उपयोग करें।
यह समस्या विशेष रूप से UE 5.2 से संबंधित है और अन्य इंजन संस्करणों को प्रभावित नहीं करती है।
प्रदर्शन सिफारिशें
- अधिकांश परियोजनाओं के लिए, मानक मॉडल गुणवत्ता और प्रदर्शन का एक उत्कृष्ट संतुलन प्रदान करता है
- यथार्थवादी मॉडल का उपयोग तब करें जब आपको मेटाह्यूमन चरित्रों के लिए उच्चतम दृश्य निष्ठा की आवश्यकता हो
- मूड-सक्षम यथार्थवादी मॉडल का उपयोग तब करें जब आपके अनुप्रयोग के लिए भावनात्मक अभिव्यक्ति नियंत्रण महत्वपूर्ण हो
- मॉडल के बीच चयन करते समय अपने लक्षित प्लेटफ़ॉर्म की प्रदर्शन क्षमताओं पर विचार करें
- अपने विशिष्ट उपयोग के मामले के लिए सर्वोत्तम संतुलन खोजने के लिए विभिन्न अनुकूलन स्तरों का परीक्षण करें
TTS संगतता
मॉडल प्रकार | स्थानीय TTS समर्थन (रनटाइम टेक्स्ट टू स्पीच के माध्यम से) | बाहरी TTS समर्थन | नोट्स |
---|---|---|---|
मानक मॉडल | ✅ पूर्ण समर्थन | ✅ पूर्ण समर्थन | सभी TTS विकल्पों के साथ संगत |
यथार्थवादी मॉडल | ❌ सीमित समर्थन | ✅ पूर्ण समर्थन | ONNX रनटाइम स्थानीय TTS के साथ संघर्ष करता है |
मूड-सक्षम यथार्थवादी मॉडल | ✅ पूर्ण समर्थन | ✅ पूर्ण समर्थन | सभी TTS विकल्पों के साथ संगत |
समस्या निवारण
सामान्य समस्याएं
यथार्थवादी मॉडल के लिए जनरेटर पुनर्निर्माण: यथार्थवादी मॉडल के साथ विश्वसनीय और सुसंगत संचालन के लिए, निष्क्रियता की अवधि के बाद नए ऑडियो डेटा को फीड करना चाहते हैं, हर बार जनरेटर को फिर से बनाने की सिफारिश की जाती है। यह ONNX रनटाइम व्यवहार के कारण है जो चुप्पी की अवधि के बाद जनरेटर का पुन: उपयोग करने पर लिप सिंक के काम करना बंद करने का कारण बन सकता है। स्थानीय TTS संगतता: रनटाइम टेक्स्ट टू स्पीच प्लगइन द्वारा प्रदान किया गया स्थानीय TTS वर्तमान में नियमित रियलिस्टिक मॉडल के साथ ONNX रनटाइम संघर्षों के कारण समर्थित नहीं है। हालाँकि, यह स्टैंडर्ड मॉडल और मूड-सक्षम रियलिस्टिक मॉडल दोनों के साथ पूरी तरह से संगत है। यदि आपको विशेष रूप से TTS कार्यक्षमता के साथ नियमित रियलिस्टिक मॉडल की आवश्यकता है तो बाहरी TTS सेवाओं का उपयोग करें।
प्रदर्शन अनुकूलन:
- अपनी प्रदर्शन आवश्यकताओं के आधार पर रियलिस्टिक मॉडल के लिए प्रोसेसिंग चंक आकार समायोजित करें
- अपने लक्षित हार्डवेयर के लिए उपयुक्त थ्रेड काउंट का उपयोग करें
- मूड-सक्षम मॉडल के लिए माउथ ओनली आउटपुट प्रकार का उपयोग करने पर विचार करें जब पूर्ण चेहरे की एनिमेशन की आवश्यकता न हो