अवलोकन
Runtime MetaHuman Lip Sync एक प्लगइन है जो मेटाह्यूमन और कस्टम दोनों प्रकार के कैरेक्टर्स के लिए रियल-टाइम, ऑफ़लाइन और क्रॉस-प्लेटफ़ॉर्म लिप सिंक सक्षम करता है। यह आपको विभिन्न स्रोतों से ऑडियो इनपुट के जवाब में किसी कैरेक्टर के होंठों को एनिमेट करने की अनुमति देता है, जिसमें शामिल हैं:
- रनटाइम ऑडियो इम्पोर्टर के कैप्चर करने योग्य साउंड वेव के माध्यम से माइक्रोफ़ोन इनपुट
- रनटाइम टेक्स्ट टू स्पीच या रनटाइम एआई चैटबॉट इंटीग्रेटर से संश्लेषित वाक्
- फ्लोट पीसीएम प्रारूप में कोई भी ऑडियो डेटा (फ़्लोटिंग-पॉइंट नमूनों की एक सरणी)
प्लगइन आंतरिक रूप से ऑडियो इनपुट के आधार पर विसेम्स (फोनिम्स के दृश्य प्रतिनिधित्व) उत्पन्न करता है। चूंकि यह सीधे टेक्स्ट के बजाय ऑडियो डेटा के साथ काम करता है, प्लगइन बहुभाषी इनपुट का समर्थन करता है जिसमें अंग्रेजी, स्पेनिश, फ्रेंच, जर्मन, जापानी, चीनी, कोरियाई, रूसी, इतालवी, पुर्तगाली, अरबी और हिंदी शामिल हैं लेकिन यह इन्हीं तक सीमित नहीं है। वस्तुतः कोई भी भाषा समर्थित है क्योंकि लिप सिंक ऑडियो फोनिम्स से उत्पन्न होता है न कि भाषा-विशिष्ट टेक्स्ट प्रोसेसिंग से।
मानक मॉडल 14 विसेम्स उत्पन्न करता है और एक पूर्वनिर्धारित पोज़ एसेट का उपयोग करके लिप सिंक एनीमेशन करता है। इसके विपरीत, यथार्थवादी मॉडल (विशेष रूप से मेटाह्यूमन कैरेक्टर्स के लिए) एक पूर्वनिर्धारित पोज़ एसेट पर निर्भर किए बिना 81 चेहरे के नियंत्रण परिवर्तन उत्पन्न करते हैं, जिसके परिणामस्वरूप काफी अधिक यथार्थवादी चेहरे की एनिमेशन होती हैं।
कैरेक्टर संगतता
अपने नाम के बावजूद, Runtime MetaHuman Lip Sync सिर्फ मेटाह्यूमन से परे कैरेक्टर्स की एक विस्तृत श्रृंखला के साथ काम करता है:
लोकप्रिय वाणिज्यिक कैरेक्टर सिस्टम
- Daz Genesis 8/9 कैरेक्टर्स
- Reallusion Character Creator 3/4 (CC3/CC4) कैरेक्टर्स
- Mixamo कैरेक्टर्स
- ReadyPlayerMe अवतार
एनीमेशन मानक समर्थन
- FACS-आधारित ब्लेंडशेप सिस्टम
- Apple ARKit ब्लेंडशेप मानक
- Preston Blair फोनेम सेट
- 3ds Max फोनेम सिस्टम
- चेहरे के भावों के लिए कस्टम मॉर्फ टार्गेट वाला कोई भी कैरेक्टर
गैर-मेटाह्यूमन कैरेक्टर्स के साथ प्लगइन का उपयोग करने के विस्तृत निर्देशों के लिए, कस्टम कैरेक्टर सेटअप गाइड देखें।
एनीमेशन पूर्वावलोकन
विभिन्न कैरेक्टर प्रकारों और मॉडलों में प्लगइन द्वारा उत्पादित लिप सिंक एनीमेशन की गुणवत्ता देखने के लिए इन छोटी एनिमेशनों को देखें:




मुख्य विशेषताएं
- माइक्रोफोन इनपुट से रियल-टाइम लिप सिंक
- ऑफलाइन ऑडियो प्रोसेसिंग सपोर्ट
- मॉडल-विशिष्ट प्लेटफॉर्म सपोर्ट के साथ क्रॉस-प्लेटफॉर्म संगतता
- एकाधिक कैरेक्टर सिस्टम और एनीमेशन मानकों के लिए सपोर्ट
- कस्टम कैरेक्टर्स के लिए लचीला विसेम मैपिंग
- सार्वभौमिक भाषा सपोर्ट - ऑडियो विश्लेषण के माध्यम से किसी भी बोली जाने वाली भाषा के साथ काम करता है
- बेहतर अभिव्यक्ति के लिए मूड-अवेयर फेशियल एनीमेशन
- कॉन्फ़िगरेबल आउटपुट प्रकार (पूरा चेहरा या केवल मुंह के नियंत्रण)
लिप सिंक मॉडल
यह प्लगइन विभिन्न प्रोजेक्ट आवश्यकताओं के अनुरूप कई लिप सिंक मॉडल प्रदान करता है:
- Standard Model
- Realistic Model
- Mood-Enabled Realistic Model
स्टैंडर्ड लिप सिंक मॉडल व्यापक कैरेक्टर संगतता के साथ कुशल, क्रॉस-प्लेटफॉर्म प्रदर्शन प्रदान करता है:
- MetaHumans और सभी कस्टम कैरेक्टर प्रकारों के साथ काम करता है
- रियल-टाइम प्रदर्शन के लिए अनुकूलित
- कम संसाधन आवश्यकताएं
- स्थानीय TTS (Runtime Text To Speech plugin) के साथ पूर्ण संगतता
- प्लेटफॉर्म सपोर्ट: Windows, Android, Android-आधारित प्लेटफॉर्म (Meta Quest सहित)
- तीन अनुकूलन स्तर: Original, Semi-Optimized, और Highly Optimized
Standard Model का उपयोग करने के लिए, आपको एक अतिरिक्त एक्सटेंशन प्लगइन इंस्टॉल करने की आवश्यकता है। इंस्टॉलेशन निर्देशों के लिए Prerequisites section देखें।
रियलिस्टिक लिप सिंक मॉडल MetaHuman कैरेक्टर्स के लिए विशेष रूप से उन्नत विजुअल फिडेलिटी प्रदान करता है:
- उन्नत फेशियल एनीमेशन (81 फेशियल कंट्रोल) के साथ MetaHuman-एक्सक्लूसिव
- अधिक प्राकृतिक मुंह की हरकतों के साथ उच्च विजुअल क्वालिटी
- थोड़ी अधिक प्रदर्शन आवश्यकताएं
- सीमित स्थानीय TTS सपोर्ट (बाहरी TTS सेवाओं की सिफारिश की जाती है)
- सिनेमैटिक अनुभवों और क्लोज-अप कैरेक्टर इंटरैक्शन के लिए आदर्श
- प्लेटफॉर्म सपोर्ट: Windows, Mac, iOS, Linux
- तीन अनुकूलन स्तर: Original, Semi-Optimized, और Highly Optimized
Realistic Model मुख्य प्लगइन में शामिल है और उपयोग करने के लिए किसी अतिरिक्त एक्सटेंशन की आवश्यकता नहीं है।
मूड-एनेबल्ड रियलिस्टिक मॉडल MetaHuman कैरेक्टर्स के लिए इमोशन-अवेयर फेशियल एनीमेशन प्रदान करता है:
- मूड-रिस्पॉन्सिव फेशियल एनीमेशन के साथ MetaHuman-एक्सक्लूसिव
- 12 विभिन्न मूड प्रकार (Neutral, Happy, Sad, Confident, आदि)
- कॉन्फ़िगरेबल मूड इंटेंसिटी (0.0 से 1.0)
- बेहतर सिंक्रनाइज़ेशन के लिए एडजस्टेबल लुकअहेड टाइमिंग (20ms से 200ms)
- चयन योग्य आउटपुट प्रकार: Full Face या Mouth Only कंट्रोल
- रियल-टाइम एप्लिकेशन के लिए स्ट्रीमिंग ऑडियो प्रोसेसिंग
- प्लेटफॉर्म सपोर्ट: Windows, Mac, iOS, Linux
मूड-सक्षम मॉडल* में कॉन्फ़िगर करने योग्य लुकअहेड टाइमिंग और चयनात्मक नियंत्रण आउटपुट जैसी उन्नत सुविधाएँ शामिल हैं, जो इसे भावनात्मक अभिव्यक्ति नियंत्रण की आवश्यकता वाले अनुप्रयोगों के लिए आदर्श बनाती हैं।
आप प्रदर्शन, चरित्र संगतता, दृश्य गुणवत्ता, लक्ष्य प्लेटफ़ॉर्म और सुविधा आवश्यकताओं के आधार पर अपनी परियोजना की आवश्यकताओं के अनुरूप उपयुक्त मॉडल चुन सकते हैं।
हालांकि सभी मॉडल विभिन्न ऑडियो इनपुट विधियों का समर्थन करते हैं, नियमित यथार्थवादी मॉडल की ONNX रनटाइम संघर्षों के कारण स्थानीय TTS के साथ सीमित संगतता है। हालांकि, मूड-सक्षम यथार्थवादी मॉडल स्थानीय TTS के साथ पूरी तरह से संगत है। टेक्स्ट-टू-स्पीच कार्यक्षमता के लिए:
- मानक मॉडल: सभी TTS विकल्पों (स्थानीय और बाहरी) के साथ संगत
- यथार्थवादी मॉडल: बाहरी TTS सेवाओं की सिफारिश की गई (OpenAI, ElevenLabs)
- मूड-सक्षम यथार्थवादी मॉडल: सभी TTS विकल्पों (स्थानीय और बाहरी) के साथ संगत
यह कैसे काम करता है
प्लगइन निम्नलिखित तरीके से ऑडियो इनपुट को संसाधित करता है:
- ऑडियो डेटा निर्दिष्ट चैनलों और सैंपल दर के साथ फ्लोट PCM प्रारूप के रूप में प्राप्त होता है
- प्लगइन मॉडल के आधार पर चेहरे का नियंत्रण डेटा या विज़म उत्पन्न करने के लिए ऑडियो को संसाधित करता है
- मूड-सक्षम मॉडल के लिए, चेहरे की एनीमेशन पर भावनात्मक संदर्भ लागू किया जाता है
- एनीमेशन डेटा रीयल-टाइम में चरित्र की चेहरे की हरकतों को संचालित करता है
त्वरित प्रारंभ
अपने चरित्र पर लिप सिंक सक्षम करने के लिए यहाँ एक बुनियादी सेटअप दिया गया है:
- MetaHuman पात्रों के लिए, सेटअप गाइड का पालन करें
- कस्टम पात्रों के लिए, कस्टम कैरेक्टर सेटअप गाइड का पालन करें
- अपनी पसंदीदा लिप सिंक मॉडल चुनें और कॉन्फ़िगर करें
- अपने ब्लूप्रिंट में ऑडियो इनपुट प्रोसेसिंग सेट करें
- एनीमेशन ब्लूप्रिंट में उपयुक्त लिप सिंक नोड कनेक्ट करें
- ऑडियो चलाएँ और अपने चरित्र को भावनाओं के साथ बोलते हुए देखें!
अतिरिक्त संसाधन
📦 डाउनलोड और लिंक
- इसे Fab पर प्राप्त करें
- उत्पाद वेबसाइट
- डेमो डाउनलोड करें (Windows)
- डेमो स्रोत फ़ाइलें डाउनलोड करें (UE 5.6) – इस प्लगइन + Runtime Audio Importer की आवश्यकता है, वैकल्पिक: Text To Speech / AI Chatbot। मानक मॉडल के लिए एक छोटे एक्सटेंशन प्लगइन की आवश्यकता होती है (यहाँ देखें)
🎥 वीडियो ट्यूटोरियल
फ़ीचर्ड डेमो:
यथार्थवादी मॉडल (उच्च-गुणवत्ता) ट्यूटोरियल:
- मूड कंट्रोल और लोकल TTS के साथ उच्च-गुणवत्ता लिप सिंक ⭐ नया
- ElevenLabs और OpenAI TTS के साथ उच्च-गुणवत्ता लिप सिंक
- उच्च-गुणवत्ता लाइव माइक्रोफोन लिप सिंक
स्टैंडर्ड मॉडल ट्यूटोरियल:
- स्टैंडर्ड लाइव माइक्रोफोन लिप सिंक
- लोकल टेक्स्ट-टू-स्पीच के साथ स्टैंडर्ड लिप सिंक
- ElevenLabs और OpenAI TTS के साथ स्टैंडर्ड लिप सिंक
सामान्य सेटअप:
💬 सहायता
- डिस्कॉर्ड सहायता सर्वर
- कस्टम डेवलपमेंट: [email protected] (टीमों और संगठनों के लिए अनुरूपित समाधान)