अवलोकन

रनटाइम मेटाह्यूमन लिप सिंक एक प्लगइन है जो मेटाह्यूमन और कस्टम दोनों प्रकार के कैरेक्टर्स के लिए रियल-टाइम, ऑफ़लाइन और क्रॉस-प्लेटफ़ॉर्म लिप सिंक सक्षम करता है। यह आपको विभिन्न स्रोतों से ऑडियो इनपुट के जवाब में किसी कैरेक्टर के होंठों को एनिमेट करने की अनुमति देता है, जिनमें शामिल हैं:

रनटाइम ऑडियो इम्पोर्टर के कैप्चर करने योग्य साउंड वेव के माध्यम से माइक्रोफ़ोन इनपुट
रनटाइम टेक्स्ट टू स्पीच या रनटाइम एआई चैटबॉट इंटीग्रेटर से संश्लेषित भाषण
रनटाइम ऑडियो इम्पोर्टर के माध्यम से कई प्रारूपों में स्ट्रीम किया गया या आयात किया गया ऑडियो डेटा
फ्लोट पीसीएम प्रारूप (फ़्लोटिंग-पॉइंट नमूनों की एक सरणी) में कोई भी ऑडियो डेटा

प्लगइन आंतरिक रूप से ऑडियो इनपुट के आधार पर विसेम (फोनेम के दृश्य प्रतिनिधित्व) उत्पन्न करता है। चूंकि यह सीधे टेक्स्ट के बजाय ऑडियो डेटा के साथ काम करता है, प्लगइन अंग्रेजी, स्पेनिश, फ्रेंच, जर्मन, जापानी, चीनी, कोरियाई, रूसी, इतालवी, पुर्तगाली, अरबी और हिंदी सहित, लेकिन इन्हीं तक सीमित नहीं, बहुभाषी इनपुट का समर्थन करता है। सचमुच कोई भी भाषा समर्थित है क्योंकि लिप सिंक भाषा-विशिष्ट टेक्स्ट प्रोसेसिंग के बजाय ऑडियो फोनेम से उत्पन्न होता है।

स्टैंडर्ड मॉडल 14 विसेम उत्पन्न करता है और एक पूर्वनिर्धारित पोज़ एसेट का उपयोग करके लिप सिंक एनीमेशन करता है। इसके विपरीत, यथार्थवादी मॉडल (विशेष रूप से मेटाह्यूमन कैरेक्टर्स के लिए) एक पूर्वनिर्धारित पोज़ एसेट पर निर्भर किए बिना 81 चेहरे के नियंत्रण परिवर्तन उत्पन्न करते हैं, जिसके परिणामस्वरूप काफी अधिक यथार्थवादी चेहरे की एनिमेशन प्राप्त होती है।

कैरेक्टर संगतता

इसके नाम के बावजूद, रनटाइम मेटाह्यूमन लिप सिंक केवल मेटाह्यूमन से परे कैरेक्टर्स की एक विस्तृत श्रृंखला के साथ काम करता है:

एनीमेशन मानक समर्थन

FACS-आधारित ब्लेंडशेप सिस्टम
Apple ARKit ब्लेंडशेप मानक
Preston Blair फोनेम सेट
3ds Max फोनेम सिस्टम
चेहरे के भावों के लिए कस्टम मॉर्फ टार्गेट वाला कोई भी कैरेक्टर

गैर-मेटाह्यूमन कैरेक्टर्स के साथ प्लगइन का उपयोग करने के विस्तृत निर्देशों के लिए, कस्टम कैरेक्टर सेटअप गाइड देखें।

एनीमेशन पूर्वावलोकन

विभिन्न कैरेक्टर प्रकारों और मॉडलों में प्लगइन द्वारा उत्पादित लिप सिंक एनीमेशन की गुणवत्ता देखने के लिए इन छोटी एनिमेशन को देखें:

मेटाह्यूमन कैरेक्टर के साथ यथार्थवादी मॉडल

मेटाह्यूमन कैरेक्टर के साथ मानक मॉडल

कस्टम कैरेक्टर के साथ मानक मॉडल

कस्टम कैरेक्टर के साथ स्टैंडर्ड मॉडल

प्रमुख विशेषताएं

माइक्रोफोन इनपुट से रियल-टाइम लिप सिंक
ऑफ़लाइन ऑडियो प्रोसेसिंग समर्थन
मॉडल-विशिष्ट प्लेटफ़ॉर्म समर्थन के साथ क्रॉस-प्लेटफ़ॉर्म संगतता
एकाधिक कैरेक्टर सिस्टम और एनीमेशन मानकों के लिए समर्थन
कस्टम कैरेक्टर्स के लिए लचीला विसेम मैपिंग
सार्वभौमिक भाषा समर्थन - ऑडियो विश्लेषण के माध्यम से किसी भी बोली जाने वाली भाषा के साथ काम करता है
बढ़ी हुई अभिव्यक्ति के लिए मूड-अवेयर फेशियल एनीमेशन
कॉन्फ़िगरेबल आउटपुट प्रकार (पूरा चेहरा या केवल मुंह नियंत्रण)

लिप सिंक मॉडल

प्लगइन विभिन्न प्रोजेक्ट आवश्यकताओं के अनुरूप कई लिप सिंक मॉडल प्रदान करता है:

स्टैंडर्ड मॉडल
यथार्थवादी मॉडल
मूड-सक्षम यथार्थवादी मॉडल

स्टैंडर्ड लिप सिंक मॉडल व्यापक कैरेक्टर संगतता के साथ कुशल, क्रॉस-प्लेटफ़ॉर्म प्रदर्शन प्रदान करता है:

मेटाह्यूमन और सभी कस्टम कैरेक्टर प्रकारों के साथ काम करता है
रियल-टाइम प्रदर्शन के लिए अनुकूलित
कम संसाधन आवश्यकताएँ
प्लेटफ़ॉर्म समर्थन: विंडोज, एंड्रॉइड, एंड्रॉइड-आधारित प्लेटफ़ॉर्म (मेटा क्वेस्ट सहित)

एक्सटेंशन प्लगइन आवश्यक

स्टैंडर्ड मॉडल का उपयोग करने के लिए, आपको एक अतिरिक्त एक्सटेंशन प्लगइन इंस्टॉल करने की आवश्यकता है। इंस्टॉलेशन निर्देशों के लिए पूर्वापेक्षाएँ अनुभाग देखें।

यथार्थवादी लिप सिंक मॉडल विशेष रूप से मेटाह्यूमन कैरेक्टर्स के लिए बढ़ी हुई दृश्य गुणवत्ता प्रदान करता है:

उन्नत फेशियल एनीमेशन (81 फेशियल कंट्रोल्स) वाले मेटाह्यूमन और ARKit-आधारित कैरेक्टर्स के साथ संगत
अधिक प्राकृतिक मुंह की गतियों के साथ उच्च दृश्य गुणवत्ता
थोड़ी अधिक प्रदर्शन आवश्यकताएँ
रियल-टाइम अनुप्रयोगों के लिए स्ट्रीमिंग ऑडियो प्रोसेसिंग
सिनेमाई अनुभवों और क्लोज-अप कैरेक्टर इंटरैक्शन के लिए आदर्श
तीन अनुकूलन स्तर: ओरिजिनल, सेमी-ऑप्टिमाइज्ड, और हाइली ऑप्टिमाइज्ड
कॉन्फ़िगरेबल मॉर्फ टार्गेट सेट (देखें मॉर्फ टार्गेट सेट चयन)
प्लेटफ़ॉर्म समर्थन: विंडोज, मैक, iOS, लिनक्स, एंड्रॉइड, एंड्रॉइड-आधारित प्लेटफ़ॉर्म (मेटा क्वेस्ट सहित)

कोई एक्सटेंशन आवश्यक नहीं

यथार्थवादी मॉडल मुख्य प्लगइन में शामिल है और इसका उपयोग करने के लिए किसी अतिरिक्त एक्सटेंशन की आवश्यकता नहीं है।

मूड-सक्षम यथार्थवादी मॉडल मेटाह्यूमन कैरेक्टर्स के लिए भावना-जागरूक फेशियल एनीमेशन प्रदान करता है:

मूड-प्रतिक्रियाशील फेशियल एनीमेशन (81 फेशियल कंट्रोल्स) वाले मेटाह्यूमन और ARKit-आधारित कैरेक्टर्स के साथ संगत
12 विभिन्न मूड प्रकार (न्यूट्रल, हैप्पी, सैड, कॉन्फिडेंट, आदि)
कॉन्फ़िगरेबल मूड तीव्रता (0.0 से 1.0)
बेहतर सिंक्रनाइज़ेशन के लिए समायोज्य लुकअहेड टाइमिंग (20ms से 200ms)
चयन योग्य आउटपुट प्रकार: फुल फेस या माउथ ओनली कंट्रोल्स
रियल-टाइम अनुप्रयोगों के लिए स्ट्रीमिंग ऑडियो प्रोसेसिंग
कॉन्फ़िगरेबल मॉर्फ टार्गेट सेट (देखें मॉर्फ टार्गेट सेट चयन)
प्लेटफ़ॉर्म समर्थन: विंडोज, मैक, iOS, लिनक्स, एंड्रॉइड, एंड्रॉइड-आधारित प्लेटफ़ॉर्म (मेटा क्वेस्ट सहित)

कोई एक्सटेंशन आवश्यक नहीं

मूड-सक्षम यथार्थवादी मॉडल मुख्य प्लगइन में शामिल है और इसका उपयोग करने के लिए किसी अतिरिक्त एक्सटेंशन की आवश्यकता नहीं है।

आप प्रदर्शन, कैरेक्टर संगतता, दृश्य गुणवत्ता, लक्षित प्लेटफ़ॉर्म और सुविधा आवश्यकताओं के आधार पर अपनी परियोजना की आवश्यकताओं के अनुरूप उपयुक्त मॉडल चुन सकते हैं।

यह कैसे काम करता है

प्लगइन निम्नलिखित तरीके से ऑडियो इनपुट को प्रोसेस करता है:

ऑडियो डेटा निर्दिष्ट चैनल और सैंपल रेट के साथ फ्लोट PCM फॉर्मेट के रूप में प्राप्त होता है
प्लगइन मॉडल के आधार पर फेशियल कंट्रोल डेटा या विसेम उत्पन्न करने के लिए ऑडियो को प्रोसेस करता है
मूड-सक्षम मॉडल के लिए, भावनात्मक संदर्भ फेशियल एनीमेशन पर लागू किया जाता है
एनीमेशन डेटा रियल-टाइम में कैरेक्टर की चेहरे की गतियों को संचालित करता है

प्रदर्शन आर्किटेक्चर

Runtime MetaHuman Lip Sync रियल-टाइम अनुप्रयोगों के लिए उपयुक्त सुसंगत, कम-विलंबता वाले लिप सिंक परिणाम देने के लिए CPU-ओनली इनफेरेंस का उपयोग करता है। डिफ़ॉल्ट रूप से, प्लगइन हर 10 मिलीसेकंड में लिप सिंक प्रोसेसिंग करता है (समायोज्य - सभी उपलब्ध सेटिंग्स सहित प्रोसेसिंग चंक साइज़, थ्रेड काउंट, और अन्य प्रदर्शन पैरामीटर्स के लिए प्लगइन कॉन्फ़िगरेशन देखें)।

मॉडल आर्किटेक्चर अवलोकन

लिप सिंक मॉडल एक कॉम्पैक्ट ट्रांसफॉर्मर-आधारित न्यूरल नेटवर्क का उपयोग करते हैं जो मेल-स्पेक्ट्रोग्राम विश्लेषण के माध्यम से ऑडियो को प्रोसेस करता है। यह हल्का आर्किटेक्चर विशेष रूप से कुशल CPU इनफेरेंस और न्यूनतम मेमोरी फुटप्रिंट के साथ रियल-टाइम प्रदर्शन के लिए डिज़ाइन किया गया है।

CPU इनफेरेंस क्यों?

रियल-टाइम लिप सिंक जैसे छोटे, लगातार इनफेरेंस ऑपरेशनों के लिए, CPU प्रोसेसिंग GPU की तुलना में बेहतर विलंबता विशेषताएँ प्रदान करती है। बैच साइज़ 1 के साथ 10-100ms इनफेरेंस अंतराल पर, PCIe ट्रांसफर और कर्नेल लॉन्च से GPU ओवरहेड अक्सर वास्तविक कंप्यूट समय से अधिक हो जाता है। इसके अतिरिक्त, गेम इंजन में GPU पहले से ही रेंडरिंग, शेडर्स और फिजिक्स से संतृप्त होता है, जो अप्रत्याशित विलंबता स्पाइक्स पैदा करने वाले संसाधन प्रतिस्पर्धा का निर्माण करता है।

हार्डवेयर संगतता

प्लगइन डेस्कटॉप, मोबाइल और VR प्लेटफ़ॉर्म पर रियल-टाइम प्रदर्शन प्रदान करते हुए समर्पित ग्राफिक्स हार्डवेयर की आवश्यकता के बिना अधिकांश मिड-टियर और उच्चतर CPUs पर कुशलता से काम करता है। कमजोर हार्डवेयर के लिए, आप मॉडल टाइप को सेमी-ऑप्टिमाइज्ड या हाइली ऑप्टिमाइज्ड में समायोजित कर सकते हैं, या थोड़ी कम प्रतिक्रियाशीलता के साथ रियल-टाइम प्रदर्शन बनाए रखने के लिए प्रोसेसिंग चंक साइज़ बढ़ा सकते हैं।

त्वरित प्रारंभ

अपने कैरेक्टर पर लिप सिंक सक्षम करने के लिए यहाँ एक बुनियादी सेटअप है:

मेटाह्यूमन कैरेक्टर्स के लिए, सेटअप गाइड का पालन करें
कस्टम कैरेक्टर्स के लिए, कस्टम कैरेक्टर सेटअप गाइड का पालन करें
अपने पसंदीदा लिप सिंक मॉडल को चुनें और कॉन्फ़िगर करें
अपने Blueprint में ऑडियो इनपुट प्रोसेसिंग सेट अप करें
एनीमेशन Blueprint में उपयुक्त लिप सिंक नोड कनेक्ट करें
ऑडियो चलाएं और अपने कैरेक्टर को भावना के साथ बोलते हुए देखें!

अतिरिक्त संसाधन

📦 डाउनलोड और लिंक

डेमो प्रोजेक्ट्स:

स्पीच-टू-स्पीच डेमो (पूर्ण AI वर्कफ़्लो):
- पैकेज्ड डेमो डाउनलोड करें (विंडोज) ⭐ नया
- स्रोत फ़ाइलें डाउनलोड करें (UE 5.6+) ⭐ नया
- पूर्ण स्पीच रिकग्निशन + AI चैटबॉट + TTS + लिप सिंक वर्कफ़्लो
- आवश्यकता: यह प्लगइन + Runtime Audio Importer + Runtime Speech Recognizer + Runtime AI Chatbot Integrator, वैकल्पिक: Runtime Text To Speech
बेसिक लिप सिंक डेमो:
- पैकेज्ड डेमो डाउनलोड करें (विंडोज)
- स्रोत फ़ाइलें डाउनलोड करें (UE 5.6+)
- बेसिक वर्कफ़्लो: माइक्रोफोन इनपुट, ऑडियो फ़ाइलें, TTS
- आवश्यकता: यह प्लगइन + Runtime Audio Importer, वैकल्पिक: Text To Speech / AI Chatbot
स्टैंडर्ड मॉडल के लिए एक छोटे एक्सटेंशन प्लगइन की आवश्यकता होती है (यहाँ देखें)

🎥 वीडियो ट्यूटोरियल्स

फीचर्ड डेमो:

यथार्थवादी मॉडल (उच्च-गुणवत्ता) ट्यूटोरियल्स:

स्टैंडर्ड मॉडल ट्यूटोरियल्स:

सामान्य सेटअप:

💬 समर्थन

Discord समर्थन सर्वर
कस्टम डेवलपमेंट: [email protected] (टीमों और संगठनों के लिए अनुरूप समाधान)

कैरेक्टर संगतता​

लोकप्रिय वाणिज्यिक कैरेक्टर सिस्टम​

एनीमेशन मानक समर्थन​

एनीमेशन पूर्वावलोकन​

प्रमुख विशेषताएं​

लिप सिंक मॉडल​

यह कैसे काम करता है​

प्रदर्शन आर्किटेक्चर​

मॉडल आर्किटेक्चर अवलोकन​

CPU इनफेरेंस क्यों?​

हार्डवेयर संगतता​

त्वरित प्रारंभ​

अतिरिक्त संसाधन​

📦 डाउनलोड और लिंक​

🎥 वीडियो ट्यूटोरियल्स​

फीचर्ड डेमो:​

यथार्थवादी मॉडल (उच्च-गुणवत्ता) ट्यूटोरियल्स:​

स्टैंडर्ड मॉडल ट्यूटोरियल्स:​

सामान्य सेटअप:​

💬 समर्थन​