अवलोकन

रनटाइम मेटाह्यूमन लिप सिंक एक प्लगइन है जो मेटाह्यूमन और कस्टम दोनों प्रकार के कैरेक्टर्स के लिए रियल-टाइम, ऑफ़लाइन और क्रॉस-प्लेटफ़ॉर्म लिप सिंक सक्षम करता है। यह आपको विभिन्न स्रोतों से ऑडियो इनपुट के जवाब में किसी कैरेक्टर के होंठों को एनिमेट करने की अनुमति देता है, जिनमें शामिल हैं:
- रनटाइम ऑडियो इम्पोर्टर के कैप्चर करने योग्य साउंड वेव के माध्यम से माइक्रोफ़ोन इनपुट
- रनटाइम टेक्स्ट टू स्पीच या रनटाइम एआई चैटबॉट इंटीग्रेटर से संश्लेषित भाषण
- रनटाइम ऑडियो इम्पोर्टर के माध्यम से कई प्रारूपों में स्ट्रीम किया गया या आयात किया गया ऑडियो डेटा
- फ्लोट पीसीएम प्रारूप (फ़्लोटिंग-पॉइंट नमूनों की एक सरणी) में कोई भी ऑडियो डेटा
प्लगइन आंतरिक रूप से ऑडियो इनपुट के आधार पर विसेम (फोनेम के दृश्य प्रतिनिधित्व) उत्पन्न करता है। चूंकि यह सीधे टेक्स्ट के बजाय ऑडियो डेटा के साथ काम करता है, प्लगइन अंग्रेजी, स्पेनिश, फ्रेंच, जर्मन, जापानी, चीनी, कोरियाई, रूसी, इतालवी, पुर्तगाली, अरबी और हिंदी सहित, लेकिन इन्हीं तक सीमित नहीं, बहुभाषी इनपुट का समर्थन करता है। सचमुच कोई भी भाषा समर्थित है क्योंकि लिप सिंक ऑडियो फोनेम से उत्पन्न होती है न कि भाषा-विशिष्ट टेक्स्ट प्रोसेसिंग से।
स्टैंडर्ड मॉडल 14 विसेम उत्पन्न करता है और एक पूर्वनिर्धारित पोज़ एसेट का उपयोग करके लिप सिंक एनीमेशन करता है। इसके विपरीत, यथार्थवादी मॉडल (विशेष रूप से मेटाह्यूमन कैरेक्टर्स के लिए) एक पूर्वनिर्धारित पोज़ एसेट पर निर्भर किए बिना 81 फेशियल कंट्रोल परिवर्तन उत्पन्न करते हैं, जिसके परिणामस्वरूप काफी अधिक यथार्थवादी चेहरे की एनिमेशन प्राप्त होती है।
कैरेक्टर संगतता
इसके नाम के बावजूद, रनटाइम मेटाह्यूमन लिप सिंक केवल मेटाह्यूमन से परे कैरेक्टर्स की एक विस्तृत श्रृंखला के साथ काम करता है:
लोकप्रिय वाणिज्यिक कैरेक्टर सिस्टम
- Daz Genesis 8/9 कैरेक्टर्स
- Reallusion Character Creator 3/4 (CC3/CC4) कैरेक्टर्स
- Mixamo कैरेक्टर्स
- ReadyPlayerMe अवतार
एनीमेशन मानक समर्थन
- FACS-आधारित ब्लेंडशेप सिस्टम
- Apple ARKit ब्लेंडशेप मानक
- Preston Blair फोनेम सेट
- 3ds Max फोनेम सिस्टम
- चेहरे के भावों के लिए कस्टम मॉर्फ टार्गेट वाला कोई भी कैरेक्टर
गैर-मेटाह्यूमन कैरेक्टर्स के साथ प्लगइन का उपयोग करने के विस्तृत निर्देशों के लिए, कस्टम कैरेक्टर सेटअप गाइड देखें।
एनीमेशन पूर्वावलोकन
विभिन्न कैरेक्टर प्रकारों और मॉडलों में प्लगइन द्वारा उत्पादित लिप सिंक एनीमेशन की गुणवत्ता देखने के लिए इन छोटी एनिमेशन को देखें:




मुख्य विशेषताएँ
- माइक्रोफोन इनपुट से रियल-टाइम लिप सिंक
- ऑफ़लाइन ऑडियो प्रोसेसिंग सपोर्ट
- मॉडल-विशिष्ट प्लेटफ़ॉर्म सपोर्ट के साथ क्रॉस-प्लेटफ़ॉर्म संगतता
- एकाधिक कैरेक्टर सिस्टम और एनीमेशन मानकों के लिए समर्थन
- कस्टम कैरेक्टर के लिए लचीला विसेम मैपिंग
- सार्वभौमिक भाषा समर्थन - ऑडियो विश्लेषण के माध्यम से किसी भी बोली जाने वाली भाषा के साथ काम करता है
- बेहतर अभिव्यक्ति के लिए मूड-अवेयर फेशियल एनीमेशन
- कॉन्फ़िगरेबल आउटपुट प्रकार (पूरा चेहरा या केवल मुंह के नियंत्रण)
लिप सिंक मॉडल
प्लगइन विभिन्न प्रोजेक्ट आवश्यकताओं के अनुरूप कई लिप सिंक मॉडल प्रदान करता है:
- स्टैंडर्ड मॉडल
- यथार्थवादी मॉडल
- मूड-सक्षम यथार्थवादी मॉडल
स्टैंडर्ड लिप सिंक मॉडल व्यापक कैरेक्टर संगतता के साथ कुशल, क्रॉस-प्लेटफ़ॉर्म प्रदर्शन प्रदान करता है:
- MetaHumans और सभी कस्टम कैरेक्टर प्रकारों के साथ काम करता है
- रियल-टाइम प्रदर्शन के लिए अनुकूलित
- कम संसाधन आवश्यकताएँ
- स्थानीय TTS (Runtime Text To Speech प्लगइन) के साथ पूर्ण संगतता
- प्लेटफ़ॉर्म समर्थन: Windows, Android, Android-आधारित प्लेटफ़ॉर्म (Meta Quest सहित)
स्टैंडर्ड मॉडल का उपयोग करने के लिए, आपको एक अतिरिक्त एक्सटेंशन प्लगइन इंस्टॉल करने की आवश्यकता है। इंस्टॉलेशन निर्देशों के लिए पूर्वापेक्षाएँ अनुभाग देखें।
यथार्थवादी लिप सिंक मॉडल विशेष रूप से MetaHuman कैरेक्टर के लिए बेहतर दृश्य गुणवत्ता प्रदान करता है:
- उन्नत फेशियल एनीमेशन (81 फेशियल कंट्रोल) वाले MetaHuman और ARKit-आधारित कैरेक्टर के साथ संगत
- अधिक प्राकृतिक मुंह की गतियों के साथ उच्च दृश्य गुणवत्ता
- थोड़ी अधिक प्रदर्शन आवश्यकताएँ
- सीमित स्थानीय TTS समर्थन (बाहरी TTS सेवाओं की सिफारिश की जाती है)
- सिनेमाई अनुभवों और क्लोज-अप कैरेक्टर इंटरैक्शन के लिए आदर्श
- प्लेटफ़ॉर्म समर्थन: Windows, Mac, iOS, Linux, Android, Android-आधारित प्लेटफ़ॉर्म (Meta Quest सहित)
- तीन अनुकूलन स्तर: मूल, अर्ध-अनुकूलित, और अत्यधिक अनुकूलित
- कॉन्फ़िगरेबल मॉर्फ टार्गेट सेट (देखें मॉर्फ टार्गेट सेट चयन)
यथार्थवादी मॉडल मुख्य प्लगइन में शामिल है और उपयोग करने के लिए किसी अतिरिक्त एक्सटेंशन की आवश्यकता नहीं है।
मूड-सक्षम यथार्थवादी मॉडल MetaHuman कैरेक्टर के लिए भावना-जागरूक फेशियल एनीमेशन प्रदान करता है:
- मूड-प्रतिक्रियाशील फेशियल एनीमेशन वाले MetaHuman और ARKit-आधारित कैरेक्टर के साथ संगत
- 12 विभिन्न मूड प्रकार (तटस्थ, खुश, उदास, आत्मविश्वासी, आदि)
- कॉन्फ़िगरेबल मूड तीव्रता (0.0 से 1.0)
- बेहतर सिंक्रनाइज़ेशन के लिए समायोज्य लुकअहेड टाइमिंग (20ms से 200ms)
- चयन योग्य आउटपुट प्रकार: पूरा चेहरा या केवल मुंह के नियंत्रण
- रियल-टाइम अनुप्रयोगों के लिए स्ट्रीमिंग ऑडियो प्रोसेसिंग
- कॉन्फ़िगरेबल मॉर्फ टार्गेट सेट (देखें मॉर्फ टार्गेट सेट चयन)
- प्लेटफ़ॉर्म समर्थन: Windows, Mac, iOS, Linux, Android, Android-आधारित प्लेटफ़ॉर्म (Meta Quest सहित)
मूड-सक्षम मॉडल में कॉन्फ़िगरेबल लुकअहेड टाइमिंग और चयनात्मक नियंत्रण आउटपुट जैसी उन्नत सुविधाएँ शामिल हैं, जो इसे भावनात्मक अभिव्यक्ति नियंत्रण की आवश्यकता वाले अनुप्रयोगों के लिए आदर्श बनाती हैं।
आप प्रदर्शन, कैरेक्टर संगतता, दृश्य गुणवत्ता, लक्षित प्लेटफ़ॉर्म और सुविधा आवश्यकताओं के आधार पर अपनी परियोजना की आवश्यकताओं के अनुरूप उपयुक्त मॉडल चुन सकते हैं।
जबकि सभी मॉडल विभिन्न ऑडियो इनपुट विधियों का समर्थन करते हैं, नियमित यथार्थवादी मॉडल ONNX रनटाइम संघर्षों के कारण स्थानीय TTS के साथ सीमित संगतता रखता है। हालाँकि, मूड-सक्षम यथार्थवादी मॉडल स्थानीय TTS के साथ पूरी तरह से संगत है। टेक्स्ट-टू-स्पीच कार्यक्षमता के लिए:
- स्टैंडर्ड मॉडल: सभी TTS विकल्पों (स्थानीय और बाहरी) के साथ संगत
- यथार्थवादी मॉडल: बाहरी TTS सेवाओं की सिफारिश की जाती है (OpenAI, ElevenLabs)
- मूड-सक्षम यथार्थवादी मॉडल: सभी TTS विकल्पों (स्थानीय और बाहरी) के साथ संगत
यह कैसे काम करता है
प्लगइन निम्नलिखित तरीके से ऑडियो इनपुट को प्रोसेस करता है:
- ऑडियो डेटा निर्दिष्ट चैनल और सैंपल रेट के साथ फ्लोट PCM फॉर्मेट के रूप में प्राप्त होता है
- प्लगइन मॉडल के आधार पर फेशियल कंट्रोल डेटा या विसेम उत्पन्न करने के लिए ऑडियो को प्रोसेस करता है
- मूड-सक्षम मॉडल के लिए, भावनात्मक संदर्भ फेशियल एनीमेशन पर लागू किया जाता है
- एनीमेशन डेटा रियल-टाइम में कैरेक्टर की चेहरे की गतियों को संचालित करता है
प्रदर्शन आर्किटेक्चर
Runtime MetaHuman Lip Sync रियल-टाइम अनुप्रयोगों के लिए उपयुक्त सुसंगत, कम-विलंबता लिप सिंक परिणाम देने के लिए CPU-ओनली इनफेरेंस का उपयोग करता है। डिफ़ॉल्ट रूप से, प्लगइन हर 10 मिलीसेकंड में लिप सिंक प्रोसेसिंग करता है (समायोज्य - सभी उपलब्ध सेटिंग्स सहित प्रोसेसिंग चंक साइज़, थ्रेड काउंट, और अन्य प्रदर्शन पैरामीटर्स के लिए प्लगइन कॉन्फ़िगरेशन देखें)।
मॉडल आर्किटेक्चर अवलोकन
लिप सिंक मॉडल एक कॉम्पैक्ट ट्रांसफॉर्मर-आधारित न्यूरल नेटवर्क का उपयोग करते हैं जो मेल-स्पेक्ट्रोग्राम विश्लेषण के माध्यम से ऑडियो को प्रोसेस करता है। यह हल्का आर्किटेक्चर विशेष रूप से कुशल CPU इनफेरेंस और न्यूनतम मेमोरी फुटप्रिंट के साथ रियल-टाइम प्रदर्शन के लिए डिज़ाइन किया गया है।
CPU इनफेरेंस क्यों?
रियल-टाइम लिप सिंक जैसे छोटे, लगातार इनफेरेंस ऑपरेशनों के लिए, CPU प्रोसेसिंग GPU की तुलना में बेहतर विलंबता विशेषताएँ प्रदान करती है। बैच साइज़ 1 के साथ 10-100ms इनफेरेंस अंतराल पर, PCIe ट्रांसफर और कर्नेल लॉन्च से GPU ओवरहेड अक्सर वास्तविक कंप्यूट समय से अधिक हो जाता है। इसके अलावा, गेम इंजन में GPU पहले से ही रेंडरिंग, शेडर और फिजिक्स से संतृप्त होता है, जो अप्रत्याशित विलंबता स्पाइक्स पैदा करने वाले संसाधन प्रतिस्पर्धा का निर्माण करता है।
हार्डवेयर संगतता
प्लगइन डेस्कटॉप, मोबाइल और VR प्लेटफ़ॉर्म पर रियल-टाइम प्रदर्शन प्रदान करते हुए, समर्पित ग्राफिक्स हार्डवेयर की आवश्यकता के बिना अधिकांश मिड-टियर और उच्च CPU पर कुशलतापूर्वक काम करता है। कमजोर हार्डवेयर के लिए, आप मॉडल प्रकार को अर्ध-अनुकूलित या अत्यधिक अनुकूलित में समायोजित कर सकते हैं, या थोड़ी कम प्रतिक्रियाशीलता के साथ रियल-टाइम प्रदर्शन बनाए रखने के लिए प्रोसेसिंग चंक साइज़ बढ़ा सकते हैं।
त्वरित प्रारंभ
अपने कैरेक्टर पर लिप सिंक सक्षम करने के लिए यहाँ एक बुनियादी सेटअप है:
- MetaHuman कैरेक्टर के लिए, सेटअप गाइड का पालन करें
- कस्टम कैरेक्टर के लिए, कस्टम कैरेक्टर सेटअप गाइड का पालन करें
- अपनी पसंदीदा लिप सिंक मॉडल चुनें और कॉन्फ़िगर करें
- अपने Blueprint में ऑडियो इनपुट प्रोसेसिंग सेट करें
- एनीमेशन Blueprint में उपयुक्त लिप सिंक नोड कनेक्ट करें
- ऑडियो चलाएँ और अपने कैरेक्टर को भावना के साथ बोलते हुए देखें!
अतिरिक्त संसाधन
📦 डाउनलोड और लिंक
- Fab पर प्राप्त करें
- उत्पाद वेबसाइट
- डेमो डाउनलोड करें (Windows)
- डेमो स्रोत फ़ाइलें डाउनलोड करें (UE 5.6) – इस प्लगइन + Runtime Audio Importer की आवश्यकता है, वैकल्पिक: Text To Speech / AI Chatbot। स्टैंडर्ड मॉडल के लिए एक छोटे एक्सटेंशन प्लगइन की आवश्यकता होती है (देखें यहाँ)
🎥 वीडियो ट्यूटोरियल
फीचर्ड डेमो:
यथार्थवादी मॉडल (उच्च-गुणवत्ता) ट्यूटोरियल:
- मूड कंट्रोल और स्थानीय TTS के साथ उच्च-गुणवत्ता लिप सिंक ⭐ नया
- ElevenLabs और OpenAI TTS के साथ उच्च-गुणवत्ता लिप सिंक
- उच्च-गुणवत्ता लाइव माइक्रोफोन लिप सिंक
स्टैंडर्ड मॉडल ट्यूटोरियल:
- स्टैंडर्ड लाइव माइक्रोफोन लिप सिंक
- स्थानीय टेक्स्ट-टू-स्पीच के साथ स्टैंडर्ड लिप सिंक
- ElevenLabs और OpenAI TTS के साथ स्टैंडर्ड लिप सिंक
सामान्य सेटअप:
💬 समर्थन
- Discord समर्थन सर्वर
- कस्टम विकास: [email protected] (टीमों और संगठनों के लिए अनुरूप समाधान)