अवलोकन
रनटाइम मेटाह्यूमन लिप सिंक एक प्लगइन है जो मेटाह्यूमन और कस्टम दोनों प्रकार के कैरेक्टर्स के लिए रियल-टाइम, ऑफलाइन और क्रॉस-प्लेटफ़ॉर्म लिप सिंक सक्षम करता है। यह आपको विभिन्न स्रोतों से ऑडियो इनपुट के जवाब में किसी कैरेक्टर के होंठों को एनिमेट करने की अनुमति देता है, जिसमें शामिल हैं:
- रनटाइम ऑडियो इम्पोर्टर के कैप्चर करने योग्य साउंड वेव के माध्यम से माइक्रोफोन इनपुट
- रनटाइम टेक्स्ट टू स्पीच या रनटाइम एआई चैटबॉट इंटीग्रेटर से संश्लेषित वाक्
- फ्लोट पीसीएम प्रारूप में कोई भी ऑडियो डेटा (फ्लोटिंग-पॉइंट नमूनों की एक सरणी)
प्लगइन आंतरिक रूप से ऑडियो इनपुट के आधार पर विसेम (फोनेम के दृश्य प्रतिनिधित्व) उत्पन्न करता है। चूंकि यह सीधे टेक्स्ट के बजाय ऑडियो डेटा के साथ काम करता है, प्लगइन अंग्रेजी, स्पेनिश, फ्रेंच, जर्मन, जापानी, चीनी, कोरियाई, रूसी, इतालवी, पुर्तगाली, अरबी और हिंदी सहित बहुभाषी इनपुट का समर्थन करता है। सचमुच कोई भी भाषा समर्थित है क्योंकि लिप सिंक ऑडियो फोनेम से उत्पन्न होता है न कि भाषा-विशिष्ट टेक्स्ट प्रोसेसिंग से।
स्टैंडर्ड मॉडल 14 विसेम उत्पन्न करता है और एक पूर्वनिर्धारित पोज़ एसेट का उपयोग करके लिप सिंक एनीमेशन करता है। इसके विपरीत, यथार्थवादी मॉडल (मेटाह्यूमन कैरेक्टर्स के लिए विशेष) एक पूर्वनिर्धारित पोज़ एसेट पर निर्भर किए बिना 250 मॉर्फ टारगेट परिवर्तन उत्पन्न करता है, जिसके परिणामस्वरूप काफी अधिक यथार्थवादी चेहरे की एनिमेशन होती है।
कैरेक्टर संगतता
अपने नाम के बावजूद, रनटाइम मेटाह्यूमन लिप सिंक सिर्फ मेटाह्यूमन से परे कैरेक्टर्स की एक विस्तृत श्रृंखला के साथ काम करता है:
लोकप्रिय वाणिज्यिक कैरेक्टर सिस्टम
- Daz Genesis 8/9 कैरेक्टर्स
- Reallusion Character Creator 3/4 (CC3/CC4) कैरेक्टर्स
- Mixamo कैरेक्टर्स
- ReadyPlayerMe अवतार
एनीमेशन मानक समर्थन
- FACS-आधारित ब्लेंडशेप सिस्टम
- Apple ARKit ब्लेंडशेप मानक
- Preston Blair फोनेम सेट
- 3ds Max फोनेम सिस्टम
- चेहरे के भावों के लिए कस्टम मॉर्फ टारगेट वाला कोई भी कैरेक्टर
गैर-मेटाह्यूमन कैरेक्टर्स के साथ प्लगइन का उपयोग करने के विस्तृत निर्देशों के लिए, कस्टम कैरेक्टर सेटअप गाइड देखें।
एनीमेशन पूर्वावलोकन
विभिन्न कैरेक्टर प्रकारों और मॉडलों में प्लगइन द्वारा निर्मित लिप सिंक एनीमेशन की गुणवत्ता देखने के लिए इन छोटी एनिमेशन को देखें:




मुख्य विशेषताएं
- माइक्रोफोन इनपुट से रियल-टाइम लिप सिंक
- ऑफलाइन ऑडियो प्रोसेसिंग सपोर्ट
- मॉडल-विशिष्ट प्लेटफॉर्म सपोर्ट के साथ क्रॉस-प्लेटफॉर्म संगतता
- एकाधिक कैरेक्टर सिस्टम और एनीमेशन मानकों के लिए सपोर्ट
- कस्टम कैरेक्टर्स के लिए लचीला विसेम मैपिंग
- सार्वभौमिक भाषा समर्थन - ऑडियो विश्लेषण के माध्यम से किसी भी बोली जाने वाली भाषा के साथ काम करता है
लिप सिंक मॉडल
प्लगइन विभिन्न प्रोजेक्ट आवश्यकताओं के अनुरूप दो लिप सिंक मॉडल प्रदान करता है:
- स्टैंडर्ड मॉडल
- यथार्थवादी मॉडल
स्टैंडर्ड लिप सिंक मॉडल व्यापक कैरेक्टर संगतता के साथ कुशल, क्रॉस-प्लेटफॉर्म प्रदर्शन प्रदान करता है:
- मेटाह्यूमन्स और सभी कस्टम कैरेक्टर प्रकारों के साथ काम करता है
- रियल-टाइम प्रदर्शन के लिए अनुकूलित
- कम संसाधन आवश्यकताएं
- स्थानीय TTS (रनटाइम टेक्स्ट टू स्पीच प्लगइन) के साथ पूर्ण संगतता
- प्लेटफॉर्म सपोर्ट: विंडोज, एंड्रॉइड, एंड्रॉइड-आधारित प्लेटफॉर्म (मेटा क्वेस्ट सहित)
स्टैंडर्ड (फास्टर) मॉडल का उपयोग करने के लिए, आपको एक अतिरिक्त एक्सटेंशन प्लगइन इंस्टॉल करने की आवश्यकता है। इंस्टॉलेशन निर्देशों के लिए पूर्वापेक्षाएँ अनुभाग देखें।
यथार्थवादी लिप सिंक मॉडल विशेष रूप से मेटाह्यूमन कैरेक्टर्स के लिए उन्नत दृश्य निष्ठा प्रदान करता है:
- उन्नत फेशियल एनीमेशन के साथ मेटाह्यूमन-एक्सक्लूसिव
- अधिक प्राकृतिक मुंह की हरकतों के साथ उच्च दृश्य गुणवत्ता
- थोड़ी उच्च प्रदर्शन आवश्यकताएं
- सीमित स्थानीय TTS सपोर्ट (बाहरी TTS सेवाओं की सिफारिश की जाती है)
- सिनेमैटिक अनुभवों और क्लोज-अप कैरेक्टर इंटरैक्शन के लिए आदर्श
- प्लेटफॉर्म सपोर्ट: विंडोज, मैक, iOS, लिनक्स
यथार्थवादी मॉडल मुख्य प्लगइन में शामिल है और उपयोग करने के लिए किसी अतिरिक्त एक्सटेंशन की आवश्यकता नहीं है।
आप प्रदर्शन, कैरेक्टर संगतता, दृश्य गुणवत्ता और लक्षित प्लेटफॉर्म के लिए अपनी प्रोजेक्ट आवश्यकताओं के आधार पर उपयुक्त मॉडल चुन सकते हैं।
हालांकि दोनों मॉडल विभिन्न ऑडियो इनपुट विधियों का समर्थन करते हैं, यथार्थवादी मॉडल में ONNX रनटाइम संघर्षों के कारण स्थानीय TTS के साथ सीमित संगतता है। यथार्थवादी मॉडल के साथ टेक्स्ट-टू-स्पीच कार्यक्षमता के लिए, बाहरी TTS सेवाओं (OpenAI, ElevenLabs) की सिफारिश की जाती है।
यह कैसे काम करता है
प्लगइन निम्नलिखित तरीके से ऑडियो इनपुट को प्रोसेस करता है:
- ऑडियो डेटा निर्दिष्ट चैनलों और सैंपल रेट के साथ फ्लोट PCM फॉर्मेट के रूप में प्राप्त होता है
- प्लगइन विसेम (फोनेम) उत्पन्न करने के लिए ऑडियो को प्रोसेस करता है
- ये विसेम कैरेक्टर के पोज़ एसेट का उपयोग करके लिप सिंक एनीमेशन को चलाते हैं
- एनीमेशन रियल-टाइम में कैरेक्टर पर लागू किया जाता है
क्विक स्टार्ट
अपने कैरेक्टर पर लिप सिंक सक्षम करने के लिए यहाँ एक बुनियादी सेटअप है:
- मेटाह्यूमन कैरेक्टर्स के लिए, मेटाह्यूमन सेटअप गाइड का पालन करें
- कस्टम कैरेक्टर्स के लिए, कस्टम कैरेक्टर सेटअप गाइड का पालन करें
- ऑडियो इनपुट प्रोसेसिंग सेट अप करें (जैसे इवेंट ग्राफ में)
- एनिम ग्राफ में Blend Runtime MetaHuman Lip Sync नोड को कनेक्ट करें
- ऑडियो चलाएं और अपने कैरेक्टर को बोलते हुए देखें!
अतिरिक्त संसाधन
📦 डाउनलोड्स और लिंक्स
- Fab पर प्राप्त करें
- उत्पाद वेबसाइट
- डेमो डाउनलोड करें (Windows)
- डेमो सोर्स फाइल्स डाउनलोड करें (UE 5.6) – इस प्लगइन की आवश्यकता है + Runtime Audio Importer, वैकल्पिक: Text To Speech / AI Chatbot। स्टैंडर्ड मॉडल के लिए एक छोटे एक्सटेंशन प्लगइन की आवश्यकता होती है (यहाँ देखें)
🎥 वीडियो ट्यूटोरियल्स
फीचर्ड डेमो:
यथार्थवादी मॉडल (उच्च-गुणवत्ता) ट्यूटोरियल्स:
- ElevenLabs और OpenAI TTS के साथ उच्च-गुणवत्ता वाली लिप सिंक ⭐ नया
- उच्च-गुणवत्ता वाली लाइव माइक्रोफोन लिप सिंक ⭐ नया
स्टैंडर्ड मॉडल ट्यूटोरियल्स:
- स्टैंडर्ड लाइव माइक्रोफोन लिप सिंक
- लोकल टेक्स्ट-टू-स्पीच के साथ स्टैंडर्ड लिप सिंक
- ElevenLabs और OpenAI TTS के साथ स्टैंडर्ड लिप सिंक
जनरल सेटअप:
💬 सहायता
- डिस्कॉर्ड सहायता सर्वर
- कस्टम डेवलपमेंट: [email protected] (टीमों और संगठनों के लिए अनुरूपित समाधान)