अवलोकन

Runtime MetaHuman Lip Sync एक प्लगइन है जो MetaHuman और कस्टम दोनों प्रकार के कैरेक्टर्स के लिए रीयल-टाइम, ऑफ़लाइन और क्रॉस-प्लेटफ़ॉर्म लिप सिंक सक्षम करता है। यह आपको विभिन्न स्रोतों से ऑडियो इनपुट के जवाब में किसी कैरेक्टर के होंठों को एनिमेट करने की अनुमति देता है, जिसमें शामिल हैं:
- Runtime Audio Importer के कैप्चर करने योग्य साउंड वेव के माध्यम से माइक्रोफ़ोन इनपुट
- Runtime Text To Speech या Runtime AI Chatbot Integrator से संश्लेषित भाषण
- Runtime Audio Importer के माध्यम से कई प्रारूपों में स्ट्रीम किया गया या आयात किया गया ऑडियो डेटा
- फ़्लोट PCM प्रारूप (फ़्लोटिंग-पॉइंट नमूनों की एक सरणी) में कोई भी ऑडियो डेटा
प्लगइन आंतरिक रूप से ऑडियो इनपुट के आधार पर विसेम (फोनेम के दृश्य प्रतिनिधित्व) उत्पन्न करता है। चूंकि यह सीधे टेक्स्ट के बजाय ऑडियो डेटा के साथ काम करता है, प्लगइन अंग्रेजी, स्पेनिश, फ्रेंच, जर्मन, जापानी, चीनी, कोरियाई, रूसी, इतालवी, पुर्तगाली, अरबी और हिंदी सहित, लेकिन इन्हीं तक सीमित नहीं, बहुभाषी इनपुट का समर्थन करता है। सचमुच कोई भी भाषा समर्थित है क्योंकि लिप सिंक भाषा-विशिष्ट टेक्स्ट प्रोसेसिंग के बजाय ऑडियो फोनेम से उत्पन्न होता है।
स्टैंडर्ड मॉडल 14 विसेम उत्पन्न करता है और एक पूर्वनिर्धारित पोज़ एसेट का उपयोग करके लिप सिंक एनीमेशन करता है। इसके विपरीत, यथार्थवादी मॉडल (विशेष रूप से MetaHuman कैरेक्टर्स के लिए) एक पूर्वनिर्धारित पोज़ एसेट पर निर्भर किए बिना 81 चेहरे के नियंत्रण परिवर्तन उत्पन्न करते हैं, जिसके परिणामस्वरूप काफी अधिक यथार्थवादी चेहरे की एनिमेशन होती है।
कैरेक्टर संगतता
इसके नाम के बावजूद, Runtime MetaHuman Lip Sync केवल MetaHumans से परे कैरेक्टर्स की एक विस्तृत श्रृंखला के साथ काम करता है:
लोकप्रिय वाणिज्यिक कैरेक्टर सिस्टम
- Daz Genesis 8/9 कैरेक्टर्स
- Reallusion Character Creator 3/4 (CC3/CC4) कैरेक्टर्स
- Mixamo कैरेक्टर्स
- ReadyPlayerMe अवतार
एनीमेशन मानक समर्थन
- FACS-आधारित ब्लेंडशेप सिस्टम
- Apple ARKit ब्लेंडशेप मानक
- Preston Blair फोनेम सेट
- 3ds Max फोनेम सिस्टम
- चेहरे के भावों के लिए कस्टम मॉर्फ टार्गेट वाला कोई भी कैरेक्टर
गैर-MetaHuman कैरेक्टर्स के साथ प्लगइन का उपयोग करने के विस्तृत निर्देशों के लिए, कस्टम कैरेक्टर सेटअप गाइड देखें।
एनीमेशन पूर्वावलोकन
विभिन्न कैरेक्टर प्रकारों और मॉडलों में प्लगइन द्वारा उत्पादित लिप सिंक एनीमेशन की गुणवत्ता देखने के लिए इन छोटी एनिमेशन को देखें:
मुख्य विशेषताएं
- माइक्रोफोन इनपुट से रियल-टाइम लिप सिंक
- ऑफ़लाइन ऑडियो प्रोसेसिंग सपोर्ट
- मॉडल-विशिष्ट प्लेटफ़ॉर्म सपोर्ट के साथ क्रॉस-प्लेटफ़ॉर्म संगतता
- एकाधिक कैरेक्टर सिस्टम और एनीमेशन मानकों के लिए समर्थन
- कस्टम कैरेक्टर्स के लिए लचीला विसेम मैपिंग
- सार्वभौमिक भाषा समर्थन - ऑडियो विश्लेषण के माध्यम से किसी भी बोली जाने वाली भाषा के साथ काम करता है
- बेहतर अभिव्यक्ति के लिए मूड-अवेयर फेशियल एनीमेशन
- कॉन्फ़िगरेबल आउटपुट प्रकार (पूरा चेहरा या केवल मुंह के नियंत्रण)
लिप सिंक मॉडल
प्लगइन विभिन्न प्रोजेक्ट आवश्यकताओं के अनुरूप कई लिप सिंक मॉडल प्रदान करता है:
- Standard Model
- Realistic Model
- Mood-Enabled Realistic Model
स्टैंडर्ड लिप सिंक मॉडल व्यापक कैरेक्टर संगतता के साथ कुशल, क्रॉस-प्लेटफ़ॉर्म प्रदर्शन प्रदान करता है:
- MetaHumans और सभी कस्टम कैरेक्टर प्रकारों के साथ काम करता है
- रियल-टाइम प्रदर्शन के लिए अनुकूलित
- कम संसाधन आवश्यकताएँ
- प्लेटफ़ॉर्म समर्थन: Windows, Android, Android-आधारित प्लेटफ़ॉर्म (Meta Quest सहित)
Standard Model का उपयोग करने के लिए, आपको एक अतिरिक्त एक्सटेंशन प्लगइन इंस्टॉल करने की आवश्यकता है। इंस्टॉलेशन निर्देशों के लिए पूर्वापेक्षाएँ अनुभाग देखें।
रियलिस्टिक लिप सिंक मॉडल विशेष रूप से MetaHuman कैरेक्टर्स के लिए बेहतर दृश्य गुणवत्ता प्रदान करता है:
- उन्नत फेशियल एनीमेशन (81 फेशियल कंट्रोल्स) वाले MetaHuman और ARKit-आधारित कैरेक्टर्स के साथ संगत
- अधिक प्राकृतिक मुंह की गतियों के साथ उच्च दृश्य गुणवत्ता
- थोड़ी अधिक प्रदर्शन आवश्यकताएँ
- रियल-टाइम अनुप्रयोगों के लिए स्ट्रीमिंग ऑडियो प्रोसेसिंग
- सिनेमाई अनुभवों और क्लोज-अप कैरेक्टर इंटरैक्शन के लिए आदर्श
- तीन अनुकूलन स्तर: Original, Semi-Optimized, और Highly Optimized
- कॉन्फ़िगरेबल मॉर्फ टार्गेट सेट (देखें Morph Target Set Selection)
- प्लेटफ़ॉर्म समर्थन: Windows, Mac, iOS, Linux, Android, Android-आधारित प्लेटफ़ॉर्म (Meta Quest सहित)
Realistic Model मुख्य प्लगइन में शामिल है और उपयोग करने के लिए किसी अतिरिक्त एक्सटेंशन की आवश्यकता नहीं है।
मूड-एनेबल्ड रियलिस्टिक मॉडल MetaHuman कैरेक्टर्स के लिए भावना-जागरूक फेशियल एनीमेशन प्रदान करता है:
- मूड-प्रतिक्रियाशील फेशियल एनीमेशन (81 फेशियल कंट्रोल्स) वाले MetaHuman और ARKit-आधारित कैरेक्टर्स के साथ संगत
- 12 विभिन्न मूड प्रकार (Neutral, Happy, Sad, Confident, आदि)
- कॉन्फ़िगरेबल मूड तीव्रता (0.0 से 1.0)
- बेहतर सिंक्रनाइज़ेशन के लिए समायोज्य लुकअहेड टाइमिंग (20ms से 200ms)
- चयन योग्य आउटपुट प्रकार: Full Face या Mouth Only कंट्रोल्स
- रियल-टाइम अनुप्रयोगों के लिए स्ट्रीमिंग ऑडियो प्रोसेसिंग
- कॉन्फ़िगरेबल मॉर्फ टार्गेट सेट (देखें Morph Target Set Selection)
- प्लेटफ़ॉर्म समर्थन: Windows, Mac, iOS, Linux, Android, Android-आधारित प्लेटफ़ॉर्म (Meta Quest सहित)
Mood-Enabled Realistic Model मुख्य प्लगइन में शामिल है और उपयोग करने के लिए किसी अतिरिक्त एक्सटेंशन की आवश्यकता नहीं है।
आप प्रदर्शन, कैरेक्टर संगतता, दृश्य गुणवत्ता, लक्षित प्लेटफ़ॉर्म और सुविधा आवश्यकताओं के आधार पर अपनी प्रोजेक्ट आवश्यकताओं के अनुरूप उपयुक्त मॉडल चुन सकते हैं।
यह कैसे काम करता है
प्लगइन निम्नलिखित तरीके से ऑडियो इनपुट को प्रोसेस करता है:
- ऑडियो डेटा निर्दिष्ट चैनल और सैंपल रेट के साथ PCM फॉर्मेट में फ्लोट के रूप में प्राप्त होता है
- प्लगइन मॉडल के आधार पर फेशियल कंट्रोल डेटा या विसेम उत्पन्न करने के लिए ऑडियो को प्रोसेस करता है
- मूड-एनेबल्ड मॉडल के लिए, भावनात्मक संदर्भ फेशियल एनीमेशन पर लागू किया जाता है
- एनीमेशन डेटा रियल-टाइम में कैरेक्टर की फेशियल गतियों को संचालित करता है
प्रदर्शन आर्किटेक्चर
Runtime MetaHuman Lip Sync रियल-टाइम अनुप्रयोगों के लिए उपयुक्त सुसंगत, कम विलंबता वाले लिप सिंक परिणाम देने के लिए CPU-ओनली इनफेरेंस का उपयोग करता है। डिफ़ॉल्ट रूप से, प्लगइन हर 10 मिलीसेकंड में लिप सिंक प्रोसेसिंग करता है (समायोज्य - सभी उपलब्ध सेटिंग्स सहित Processing Chunk Size, थ्रेड काउंट, और अन्य प्रदर्शन पैरामीटर्स के लिए Plugin Configuration देखें)।
मॉडल आर्किटेक्चर अवलोकन
लिप सिंक मॉडल एक कॉम्पैक्ट ट्रांसफॉर्मर-आधारित न्यूरल नेटवर्क का उपयोग करते हैं जो मेल-स्पेक्ट्रोग्राम विश्लेषण के माध्यम से ऑडियो को प्रोसेस करता है। यह हल्का आर्किटेक्चर विशेष रूप से कुशल CPU इनफेरेंस और न्यूनतम मेमोरी फुटप्रिंट के साथ रियल-टाइम प्रदर्शन के लिए डिज़ाइन किया गया है।
CPU इनफेरेंस क्यों?
रियल-टाइम लिप सिंक जैसे छोटे, लगातार इनफेरेंस ऑपरेशनों के लिए, CPU प्रोसेसिंग GPU की तुलना में बेहतर विलंबता विशेषताएँ प्रदान करती है। बैच साइज़ 1 के साथ 10-100ms इनफेरेंस अंतराल पर, PCIe ट्रांसफर और कर्नेल लॉन्च से GPU ओवरहेड अक्सर वास्तविक कंप्यूट समय से अधिक हो जाता है। इसके अलावा, गेम इंजन में GPU पहले से ही रेंडरिंग, शेडर्स और फिजिक्स से संतृप्त होता है, जो अप्रत्याशित विलंबता स्पाइक्स पैदा करने वाले संसाधन प्रतिस्पर्धा का निर्माण करता है।
हार्डवेयर संगतता
प्लगइन डेस्कटॉप, मोबाइल और VR प्लेटफ़ॉर्म पर रियल-टाइम प्रदर्शन प्रदान करते हुए समर्पित ग्राफिक्स हार्डवेयर की आवश्यकता के बिना अधिकांश मिड-टियर और उच्चतर CPUs पर कुशलता से काम करता है। कमजोर हार्डवेयर के लिए, आप Model Type को Semi-Optimized या Highly Optimized में समायोजित कर सकते हैं, या थोड़ी कम प्रतिक्रियाशीलता के साथ रियल-टाइम प्रदर्शन बनाए रखने के लिए Processing Chunk Size बढ़ा सकते हैं।
त्वरित प्रारंभ
आपके कैरेक्टर पर लिप सिंक सक्षम करने के लिए यहाँ एक बुनियादी सेटअप है:
- MetaHuman कैरेक्टर्स के लिए, Setup Guide का पालन करें
- कस्टम कैरेक्टर्स के लिए, Custom Character Setup Guide का पालन करें
- अपने पसंदीदा लिप सिंक मॉडल को चुनें और कॉन्फ़िगर करें
- अपने Blueprint में ऑडियो इनपुट प्रोसेसिंग सेट अप करें
- Animation Blueprint में उपयुक्त लिप सिंक नोड कनेक्ट करें
- ऑडियो चलाएँ और अपने कैरेक्टर को भावना के साथ बोलते हुए देखें!
अतिरिक्त संसाधन
📦 डाउनलोड और लिंक्स
डेमो प्रोजेक्ट्स:
- Speech-to-Speech Demo (पूर्ण AI वर्कफ़्लो):
- पैकेज्ड डेमो डाउनलोड करें (Windows) ⭐ NEW
- स्रोत फ़ाइलें डाउनलोड करें (UE 5.6+) ⭐ NEW
- पूर्ण स्पीच रिकग्निशन + AI चैटबॉट + TTS + लिप सिंक वर्कफ़्लो
- आवश्यक: यह प्लगइन + Runtime Audio Importer + Runtime Speech Recognizer + Runtime AI Chatbot Integrator, वैकल्पिक: Runtime Text To Speech
- बेसिक लिप सिंक डेमो:
- पैकेज्ड डेमो डाउनलोड करें (Windows)
- स्रोत फ़ाइलें डाउनलोड करें (UE 5.6+)
- बेसिक वर्कफ़्लो: माइक्रोफोन इनपुट, ऑडियो फ़ाइलें, TTS
- आवश्यक: यह प्लगइन + Runtime Audio Importer, वैकल्पिक: Text To Speech / AI Chatbot
- स्टैंडर्ड मॉडल के लिए एक छोटे एक्सटेंशन प्लगइन की आवश्यकता होती है (यहाँ देखें)
🎥 वीडियो ट्यूटोरियल्स
फ़ीचर्ड डेमो:
Realistic Model (उच्च-गुणवत्ता) ट्यूटोरियल्स:
- High-Quality Lip Sync with Mood Control & Local TTS
- High-Quality Lip Sync with ElevenLabs & OpenAI TTS
- High-Quality Live Microphone Lip Sync
Standard Model ट्यूटोरियल्स:
- Standard Live Microphone Lip Sync
- Standard Lip Sync with Local Text-to-Speech
- Standard Lip Sync with ElevenLabs & OpenAI TTS
सामान्य सेटअप:
- Adding a Custom MetaHuman Character to the Demo Project ⭐ NEW
- Setup tutorial video
- Demo project walkthrough (older)
💬 समर्थन
- कस्टम डेवलपमेंट: [email protected] (टीमों और संगठनों के लिए अनुरूप समाधान)