अवलोकन

Runtime MetaHuman Lip Sync एक प्लगइन है जो मेटाह्यूमन और कस्टम दोनों प्रकार के कैरेक्टर्स के लिए रियल-टाइम, ऑफ़लाइन और क्रॉस-प्लेटफ़ॉर्म लिप सिंक सक्षम करता है। यह आपको विभिन्न स्रोतों से ऑडियो इनपुट के जवाब में किसी कैरेक्टर के होंठों को एनिमेट करने की अनुमति देता है, जिनमें शामिल हैं:
- Runtime Audio Importer के कैप्चर करने योग्य साउंड वेव के माध्यम से माइक्रोफ़ोन इनपुट
- Runtime Text To Speech या Runtime AI Chatbot Integrator से संश्लेषित भाषण
- Runtime Audio Importer के माध्यम से कई प्रारूपों में स्ट्रीम किया गया या आयात किया गया ऑडियो डेटा
- फ्लोट पीसीएम प्रारूप (फ़्लोटिंग-पॉइंट नमूनों की एक सरणी) में कोई भी ऑडियो डेटा
प्लगइन आंतरिक रूप से ऑडियो इनपुट के आधार पर विसेम (फोनेम के दृश्य प्रतिनिधित्व) उत्पन्न करता है। चूंकि यह सीधे टेक्स्ट के बजाय ऑडियो डेटा के साथ काम करता है, प्लगइन अंग्रेजी, स्पेनिश, फ्रेंच, जर्मन, जापानी, चीनी, कोरियाई, रूसी, इतालवी, पुर्तगाली, अरबी और हिंदी सहित, लेकिन इन्हीं तक सीमित नहीं, बहुभाषी इनपुट का समर्थन करता है। सचमुच किसी भी भाषा का समर्थन किया जाता है क्योंकि लिप सिंक ऑडियो फोनेम से उत्पन्न होता है न कि भाषा-विशिष्ट टेक्स्ट प्रोसेसिंग से।
मानक मॉडल 14 विसेम उत्पन्न करता है और एक पूर्वनिर्धारित पोज़ एसेट का उपयोग करके लिप सिंक एनीमेशन करता है। इसके विपरीत, यथार्थवादी मॉडल (विशेष रूप से मेटाह्यूमन कैरेक्टर्स के लिए) एक पूर्वनिर्धारित पोज़ एसेट पर निर्भर किए बिना 81 चेहरे के नियंत्रण परिवर्तन उत्पन्न करते हैं, जिसके परिणामस्वरूप काफी अधिक यथार्थवादी चेहरे की एनिमेशन होती है।
कैरेक्टर संगतता
इसके नाम के बावजूद, Runtime MetaHuman Lip Sync केवल मेटाह्यूमन से परे कैरेक्टर्स की एक विस्तृत श्रृंखला के साथ काम करता है:
लोकप्रिय वाणिज्यिक कैरेक्टर सिस्टम
- Daz Genesis 8/9 कैरेक्टर्स
- Reallusion Character Creator 3/4 (CC3/CC4) कैरेक्टर्स
- Mixamo कैरेक्टर्स
- ReadyPlayerMe अवतार
एनीमेशन मानक समर्थन
- FACS-आधारित ब्लेंडशेप सिस्टम
- Apple ARKit ब्लेंडशेप मानक
- Preston Blair फोनेम सेट
- 3ds Max फोनेम सिस्टम
- चेहरे के भावों के लिए कस्टम मॉर्फ टार्गेट वाला कोई भी कैरेक्टर
गैर-मेटाह्यूमन कैरेक्टर्स के साथ प्लगइन का उपयोग करने के विस्तृत निर्देशों के लिए, कस्टम कैरेक्टर सेटअप गाइड देखें।
एनीमेशन पूर्वावलोकन
विभिन्न कैरेक्टर प्रकारों और मॉडलों में प्लगइन द्वारा उत्पादित लिप सिंक एनीमेशन की गुणवत्ता देखने के लिए इन छोटी एनिमेशन को देखें:




मुख्य विशेषताएँ
- माइक्रोफोन इनपुट से रियल-टाइम लिप सिंक
- ऑफ़लाइन ऑडियो प्रोसेसिंग सपोर्ट
- मॉडल-विशिष्ट प्लेटफ़ॉर्म सपोर्ट के साथ क्रॉस-प्लेटफ़ॉर्म संगतता
- एकाधिक कैरेक्टर सिस्टम और एनीमेशन मानकों के लिए समर्थन
- कस्टम कैरेक्टर के लिए लचीला विसेम मैपिंग
- सार्वभौमिक भाषा समर्थन - ऑडियो विश्लेषण के माध्यम से किसी भी बोली जाने वाली भाषा के साथ काम करता है
- बेहतर अभिव्यक्ति के लिए मूड-अवेयर फेशियल एनीमेशन
- कॉन्फ़िगरेबल आउटपुट प्रकार (पूरा चेहरा या केवल मुंह के नियंत्रण)
लिप सिंक मॉडल
यह प्लगइन विभिन्न प्रोजेक्ट आवश्यकताओं के अनुरूप कई लिप सिंक मॉडल प्रदान करता है:
- स्टैंडर्ड मॉडल
- यथार्थवादी मॉडल
- मूड-सक्षम यथार्थवादी मॉडल
स्टैंडर्ड लिप सिंक मॉडल व्यापक कैरेक्टर संगतता के साथ कुशल, क्रॉस-प्लेटफ़ॉर्म प्रदर्शन प्रदान करता है:
- MetaHumans और सभी कस्टम कैरेक्टर प्रकारों के साथ काम करता है
- रियल-टाइम प्रदर्शन के लिए अनुकूलित
- कम संसाधन आवश्यकताएँ
- स्थानीय TTS (Runtime Text To Speech प्लगइन) के साथ पूर्ण संगतता
- प्लेटफ़ॉर्म समर्थन: Windows, Android, Android-आधारित प्लेटफ़ॉर्म (Meta Quest सहित)
स्टैंडर्ड मॉडल का उपयोग करने के लिए, आपको एक अतिरिक्त एक्सटेंशन प्लगइन इंस्टॉल करने की आवश्यकता है। इंस्टॉलेशन निर्देशों के लिए पूर्वापेक्षाएँ अनुभाग देखें।
यथार्थवादी लिप सिंक मॉडल MetaHuman कैरेक्टर के लिए विशेष रूप से उन्नत दृश्य गुणवत्ता प्रदान करता है:
- उन्नत फेशियल एनीमेशन (81 फेशियल कंट्रोल) के साथ MetaHuman-एक्सक्लूसिव
- अधिक प्राकृतिक मुंह की गतिविधियों के साथ उच्च दृश्य गुणवत्ता
- थोड़ी अधिक प्रदर्शन आवश्यकताएँ
- सीमित स्थानीय TTS समर्थन (बाहरी TTS सेवाओं की अनुशंसा की जाती है)
- सिनेमाई अनुभवों और क्लोज-अप कैरेक्टर इंटरैक्शन के लिए आदर्श
- प्लेटफ़ॉर्म समर्थन: Windows, Mac, iOS, Linux, Android, Android-आधारित प्लेटफ़ॉर्म (Meta Quest सहित)
- तीन अनुकूलन स्तर: ओरिजिनल, सेमी-ऑप्टिमाइज़्ड, और हाईली ऑप्टिमाइज़्ड
यथार्थवादी मॉडल मुख्य प्लगइन में शामिल है और इसका उपयोग करने के लिए किसी अतिरिक्त एक्सटेंशन की आवश्यकता नहीं है।
मूड-सक्षम यथार्थवादी मॉडल MetaHuman कैरेक्टर के लिए भावना-जागरूक फेशियल एनीमेशन प्रदान करता है:
- मूड-प्रतिक्रियाशील फेशियल एनीमेशन के साथ MetaHuman-एक्सक्लूसिव
- 12 विभिन्न मूड प्रकार (न्यूट्रल, हैप्पी, सैड, कॉन्फिडेंट, आदि)
- कॉन्फ़िगरेबल मूड तीव्रता (0.0 से 1.0)
- बेहतर सिंक्रनाइज़ेशन के लिए समायोज्य लुकअहेड टाइमिंग (20ms से 200ms)
- चयन योग्य आउटपुट प्रकार: फुल फेस या माउथ ओनली कंट्रोल
- रियल-टाइम अनुप्रयोगों के लिए स्ट्रीमिंग ऑडियो प्रोसेसिंग
- प्लेटफ़ॉर्म समर्थन: Windows, Mac, iOS, Linux, Android, Android-आधारित प्लेटफ़ॉर्म (Meta Quest सहित)
मूड-सक्षम मॉडल में उन्नत सुविधाएँ शामिल हैं जैसे कॉन्फ़िगर करने योग्य लुकअहेड टाइमिंग और चयनात्मक नियंत्रण आउटपुट, जो इसे भावनात्मक अभिव्यक्ति नियंत्रण की आवश्यकता वाले अनुप्रयोगों के लिए आदर्श बनाता है।
आप अपनी परियोजना की आवश्यकताओं के आधार पर प्रदर्शन, चरित्र संगतता, दृश्य गुणवत्ता, लक्ष्य प्लेटफ़ॉर्म और सुविधा आवश्यकताओं के लिए उपयुक्त मॉडल चुन सकते हैं।
हालांकि सभी मॉडल विभिन्न ऑडियो इनपुट विधियों का समर्थन करते हैं, नियमित रियलिस्टिक मॉडल की ONNX रनटाइम संघर्षों के कारण स्थानीय TTS के साथ सीमित संगतता है। हालांकि, मूड-सक्षम रियलिस्टिक मॉडल स्थानीय TTS के साथ पूरी तरह से संगत है। टेक्स्ट-टू-स्पीच कार्यक्षमता के लिए:
- मानक मॉडल: सभी TTS विकल्पों (स्थानीय और बाहरी) के साथ संगत
- रियलिस्टिक मॉडल: बाहरी TTS सेवाओं की अनुशंसा की जाती है (OpenAI, ElevenLabs)
- मूड-सक्षम रियलिस्टिक मॉडल: सभी TTS विकल्पों (स्थानीय और बाहरी) के साथ संगत
यह कैसे काम करता है
प्लगइन ऑडियो इनपुट को निम्नलिखित तरीके से संसाधित करता है:
- ऑडियो डेटा PCM प्रारूप में फ्लोट के रूप में प्राप्त होता है जिसमें निर्दिष्ट चैनल और सैंपल दर होती है
- प्लगइन मॉडल के आधार पर चेहरे का नियंत्रण डेटा या विज़ेम उत्पन्न करने के लिए ऑडियो को संसाधित करता है
- मूड-सक्षम मॉडलों के लिए, भावनात्मक संदर्भ चेहरे की एनीमेशन पर लागू किया जाता है
- एनीमेशन डेटा वास्तविक समय में चरित्र की चेहरे की हरकतों को संचालित करता है
प्रदर्शन आर्किटेक्चर
Runtime MetaHuman Lip Sync सुसंगत, कम-विलंबता वाले लिप सिंक परिणाम देने के लिए CPU-केवल अनुमान का उपयोग करता है जो वास्तविक समय के अनुप्रयोगों के लिए उपयुक्त हैं। डिफ़ॉल्ट रूप से, प्लगइन हर 10 मिलीसेकंड में लिप सिंक प्रसंस्करण करता है (समायोज्य - सभी उपलब्ध सेटिंग्स सहित प्रसंस्करण चंक आकार, थ्रेड काउंट, और अन्य प्रदर्शन पैरामीटर्स के लिए प्लगइन कॉन्फ़िगरेशन देखें)।
मॉडल आर्किटेक्चर अवलोकन
लिप सिंक मॉडल एक कॉम्पैक्ट ट्रांसफॉर्मर-आधारित न्यूरल नेटवर्क का उपयोग करते हैं जो मेल-स्पेक्ट्रोग्राम विश्लेषण के माध्यम से ऑडियो को संसाधित करता है। यह हल्का आर्किटेक्चर विशेष रूप से कुशल CPU अनुमान और न्यूनतम मेमोरी फुटप्रिंट के साथ वास्तविक समय प्रदर्शन के लिए डिज़ाइन किया गया है।
CPU अनुमान क्यों?
वास्तविक समय लिप सिंक जैसे छोटे, लगातार अनुमान संचालन के लिए, CPU प्रसंस्करण GPU की तुलना में बेहतर विलंबता विशेषताएँ प्रदान करता है। बैच आकार 1 के साथ 10-100ms अनुमान अंतराल पर, PCIe स्थानांतरण और कर्नेल लॉन्च से GPU ओवरहेड अक्सर वास्तविक गणना समय से अधिक हो जाता है। इसके अतिरिक्त, गेम इंजन में GPU पहले से ही रेंडरिंग, शेडर और भौतिकी से संतृप्त होता है, जो अप्रत्याशित विलंबता स्पाइक्स पैदा करने वाला संसाधन प्रतिस्पर्धा पैदा करता है।
हार्डवेयर संगतता
यह प्लगइन अधिकांश मध्य-स्तरीय और उच्च स्तरीय CPUs पर कुशलता से काम करता है, जिसके लिए समर्पित ग्राफिक्स हार्डवेयर की आवश्यकता नहीं होती है, और डेस्कटॉप, मोबाइल और VR प्लेटफॉर्म पर रीयल-टाइम प्रदर्शन प्रदान करता है। कमजोर हार्डवेयर के लिए, आप रीयल-टाइम प्रदर्शन को थोड़ी कम प्रतिक्रियाशीलता के साथ बनाए रखने के लिए मॉडल प्रकार को सेमी-ऑप्टिमाइज़्ड या हाईली ऑप्टिमाइज़्ड में समायोजित कर सकते हैं, या प्रोसेसिंग चंक साइज़ बढ़ा सकते हैं।
त्वरित प्रारंभ
अपने कैरेक्टर पर लिप सिंक सक्षम करने के लिए यहाँ एक बुनियादी सेटअप है:
- मेटाह्यूमन कैरेक्टर्स के लिए, सेटअप गाइड का पालन करें
- कस्टम कैरेक्टर्स के लिए, कस्टम कैरेक्टर सेटअप गाइड का पालन करें
- अपनी पसंदीदा लिप सिंक मॉडल चुनें और कॉन्फ़िगर करें
- अपने ब्लूप्रिंट में ऑडियो इनपुट प्रोसेसिंग सेट अप करें
- एनीमेशन ब्लूप्रिंट में उपयुक्त लिप सिंक नोड कनेक्ट करें
- ऑडियो चलाएं और अपने कैरेक्टर को भावनाओं के साथ बोलते हुए देखें!
अतिरिक्त संसाधन
📦 डाउनलोड और लिंक
- Fab पर प्राप्त करें
- उत्पाद वेबसाइट
- डेमो डाउनलोड करें (Windows)
- डेमो स्रोत फ़ाइलें डाउनलोड करें (UE 5.6) – इस प्लगइन की आवश्यकता है + Runtime Audio Importer, वैकल्पिक: Text To Speech / AI Chatbot। स्टैंडर्ड मॉडल के लिए एक छोटे एक्सटेंशन प्लगइन की आवश्यकता होती है (यहाँ देखें)
🎥 वीडियो ट्यूटोरियल
फ़ीचर्ड डेमो:
यथार्थवादी मॉडल (उच्च-गुणवत्ता) ट्यूटोरियल:
- मूड कंट्रोल और लोकल TTS के साथ उच्च-गुणवत्ता वाला लिप सिंक ⭐ नया
- ElevenLabs और OpenAI TTS के साथ उच्च-गुणवत्ता वाला लिप सिंक
- उच्च-गुणवत्ता वाला लाइव माइक्रोफोन लिप सिंक
स्टैंडर्ड मॉडल ट्यूटोरियल:
- स्टैंडर्ड लाइव माइक्रोफोन लिप सिंक
- लोकल टेक्स्ट-टू-स्पीच के साथ स्टैंडर्ड लिप सिंक
- ElevenLabs और OpenAI TTS के साथ स्टैंडर्ड लिप सिंक
सामान्य सेटअप:
💬 समर्थन
- Discord समर्थन सर्वर
- कस्टम विकास: [email protected] (टीमों और संगठनों के लिए अनुरूप समाधान)