अवलोकन

रनटाइम मेटाह्यूमन लिप सिंक एक प्लगइन है जो मेटाह्यूमन और कस्टम दोनों प्रकार के कैरेक्टर्स के लिए रियल-टाइम, ऑफलाइन और क्रॉस-प्लेटफॉर्म लिप सिंक सक्षम करता है। यह आपको विभिन्न स्रोतों से ऑडियो इनपुट के जवाब में किसी कैरेक्टर के होंठों को एनिमेट करने की अनुमति देता है, जिसमें शामिल हैं:
- रनटाइम ऑडियो इम्पोर्टर के कैप्चर करने योग्य साउंड वेव के माध्यम से माइक्रोफोन इनपुट
- रनटाइम टेक्स्ट टू स्पीच या रनटाइम एआई चैटबॉट इंटीग्रेटर से संश्लेषित भाषण
- फ्लोट पीसीएम प्रारूप में कोई भी ऑडियो डेटा (फ्लोटिंग-पॉइंट नमूनों की एक सरणी)
प्लगइन आंतरिक रूप से ऑडियो इनपुट के आधार पर विसेम (फोनम के दृश्य प्रतिनिधित्व) उत्पन्न करता है। चूंकि यह सीधे टेक्स्ट के बजाय ऑडियो डेटा के साथ काम करता है, प्लगइन अंग्रेजी, स्पेनिश, फ्रेंच, जर्मन, जापानी, चीनी, कोरियाई, रूसी, इतालवी, पुर्तगाली, अरबी और हिंदी सहित, लेकिन इन्हीं तक सीमित नहीं, बहुभाषी इनपुट का समर्थन करता है। सचमुच कोई भी भाषा समर्थित है क्योंकि लिप सिंक ऑडियो फोनम से उत्पन्न होता है न कि भाषा-विशिष्ट टेक्स्ट प्रोसेसिंग से।
स्टैंडर्ड मॉडल 14 विसेम उत्पन्न करता है और एक पूर्वनिर्धारित पोज़ एसेट का उपयोग करके लिप सिंक एनीमेशन करता है। इसके विपरीत, यथार्थवादी मॉडल (विशेष रूप से मेटाह्यूमन कैरेक्टर्स के लिए) एक पूर्वनिर्धारित पोज़ एसेट पर निर्भर किए बिना 81 फेशियल कंट्रोल परिवर्तन उत्पन्न करते हैं, जिसके परिणामस्वरूप काफी अधिक यथार्थवादी फेशियल एनिमेशन होते हैं।
कैरेक्टर संगतता
अपने नाम के बावजूद, रनटाइम मेटाह्यूमन लिप सिंक सिर्फ मेटाह्यूमन से परे कैरेक्टर्स की एक विस्तृत श्रृंखला के साथ काम करता है:
लोकप्रिय वाणिज्यिक कैरेक्टर सिस्टम
- Daz Genesis 8/9 कैरेक्टर्स
- Reallusion Character Creator 3/4 (CC3/CC4) कैरेक्टर्स
- Mixamo कैरेक्टर्स
- ReadyPlayerMe एवेटार्स
एनीमेशन मानक समर्थन
- FACS-आधारित ब्लेंडशेप सिस्टम
- Apple ARKit ब्लेंडशेप मानक
- Preston Blair फोनम सेट
- 3ds Max फोनम सिस्टम
- फेशियल एक्सप्रेशंस के लिए कस्टम मॉर्फ टार्गेट वाला कोई भी कैरेक्टर
गैर-मेटाह्यूमन कैरेक्टर्स के साथ प्लगइन का उपयोग करने के विस्तृत निर्देशों के लिए, कस्टम कैरेक्टर सेटअप गाइड देखें।
एनीमेशन पूर्वावलोकन
विभिन्न कैरेक्टर प्रकारों और मॉडलों में प्लगइन द्वारा उत्पादित लिप सिंक एनीमेशन की गुणवत्ता देखने के लिए इन छोटी एनिमेशन को देखें:




मुख्य विशेषताएँ
- माइक्रोफोन इनपुट से रियल-टाइम लिप सिंक
- ऑफ़लाइन ऑडियो प्रोसेसिंग सपोर्ट
- मॉडल-विशिष्ट प्लेटफ़ॉर्म सपोर्ट के साथ क्रॉस-प्लेटफ़ॉर्म संगतता
- एकाधिक कैरेक्टर सिस्टम और एनिमेशन मानकों के लिए समर्थन
- कस्टम कैरेक्टर्स के लिए लचीला विसेम मैपिंग
- सार्वभौमिक भाषा समर्थन - ऑडियो विश्लेषण के माध्यम से किसी भी बोली जाने वाली भाषा के साथ काम करता है
- बेहतर अभिव्यक्ति के लिए मूड-अवेयर फेशियल एनिमेशन
- कॉन्फ़िगरेबल आउटपुट प्रकार (पूरा चेहरा या केवल मुंह नियंत्रण)
लिप सिंक मॉडल
यह प्लगइन विभिन्न प्रोजेक्ट आवश्यकताओं के अनुरूप कई लिप सिंक मॉडल प्रदान करता है:
- मानक मॉडल
- यथार्थवादी मॉडल
- मूड-सक्षम यथार्थवादी मॉडल
मानक लिप सिंक मॉडल व्यापक कैरेक्टर संगतता के साथ कुशल, क्रॉस-प्लेटफ़ॉर्म प्रदर्शन प्रदान करता है:
- MetaHumans और सभी कस्टम कैरेक्टर प्रकारों के साथ काम करता है
- रियल-टाइम प्रदर्शन के लिए अनुकूलित
- कम संसाधन आवश्यकताएँ
- स्थानीय TTS (Runtime Text To Speech प्लगइन) के साथ पूर्ण संगतता
- प्लेटफ़ॉर्म समर्थन: Windows, Android, Android-आधारित प्लेटफ़ॉर्म (Meta Quest सहित)
मानक मॉडल का उपयोग करने के लिए, आपको एक अतिरिक्त एक्सटेंशन प्लगइन इंस्टॉल करने की आवश्यकता है। इंस्टॉलेशन निर्देशों के लिए पूर्वापेक्षाएँ अनुभाग देखें।
यथार्थवादी लिप सिंक मॉडल विशेष रूप से MetaHuman कैरेक्टर्स के लिए उन्नत दृश्य निष्ठा प्रदान करता है:
- उन्नत फेशियल एनिमेशन (81 फेशियल कंट्रोल्स) के साथ MetaHuman-एक्सक्लूसिव
- अधिक प्राकृतिक मुंह की हरकतों के साथ उच्च दृश्य गुणवत्ता
- थोड़ी उच्च प्रदर्शन आवश्यकताएँ
- सीमित स्थानीय TTS समर्थन (बाहरी TTS सेवाओं की अनुशंसा की जाती है)
- सिनेमाई अनुभवों और क्लोज-अप कैरेक्टर इंटरैक्शन के लिए आदर्श
- प्लेटफ़ॉर्म समर्थन: Windows, Mac, iOS, Linux
- तीन अनुकूलन स्तर: मूल, अर्ध-अनुकूलित, और अत्यधिक अनुकूलित
यथार्थवादी मॉडल मुख्य प्लगइन में शामिल है और उपयोग करने के लिए किसी अतिरिक्त एक्सटेंशन की आवश्यकता नहीं है।
मूड-सक्षम यथार्थवादी मॉडल MetaHuman कैरेक्टर्स के लिए भावना-जागरूक फेशियल एनिमेशन प्रदान करता है:
- मूड-प्रतिक्रियाशील फेशियल एनिमेशन के साथ MetaHuman-एक्सक्लूसिव
- 12 विभिन्न मूड प्रकार (तटस्थ, खुश, उदास, आत्मविश्वासी, आदि)
- कॉन्फ़िगरेबल मूड तीव्रता (0.0 से 1.0)
- बेहतर सिंक्रनाइज़ेशन के लिए समायोज्य लुकअहेड टाइमिंग (20ms से 200ms)
- चयन योग्य आउटपुट प्रकार: पूरा चेहरा या केवल मुंह नियंत्रण
- रियल-टाइम अनुप्रयोगों के लिए स्ट्रीमिंग ऑडियो प्रोसेसिंग
- प्लेटफ़ॉर्म समर्थन: Windows, Mac, iOS, Linux
मूड-सक्षम मॉडल में कॉन्फ़िगरेबल लुकअहेड टाइम और चयनात्मक नियंत्रण आउटपुट के लिए आदर्श बनाता है, जो भावनात्मक अभिव्यक्ति नियंत्रण की आवश्यकता वाले अनुप्रयोगों के लिए उपयुक्त है।
आप प्रदर्शन, चरित्र संगतता, दृश्य गुणवत्ता, लक्ष्य प्लेटफ़ॉर्म और सुविधा आवश्यकताओं के आधार पर अपनी परियोजना की आवश्यकताओं के अनुरूप उपयुक्त मॉडल चुन सकते हैं।
हालाँकि सभी मॉडल विभिन्न ऑडियो इनपुट विधियों का समर्थन करते हैं, नियमित यथार्थवादी मॉडल की ONNX रनटाइम संघर्षों के कारण स्थानीय TTS के साथ सीमित संगतता है। हालाँकि, मूड-सक्षम यथार्थवादी मॉडल स्थानीय TTS के साथ पूरी तरह से संगत है। टेक्स्ट-टू-स्पीच कार्यक्षमता के लिए:
- मानक मॉडल: सभी TTS विकल्पों (स्थानीय और बाहरी) के साथ संगत
- यथार्थवादी मॉडल: बाहरी TTS सेवाओं की अनुशंसा की जाती है (OpenAI, ElevenLabs)
- मूड-सक्षम यथार्थवादी मॉडल: सभी TTS विकल्पों (स्थानीय और बाहरी) के साथ संगत
यह कैसे काम करता है
प्लगइन निम्नलिखित तरीके से ऑडियो इनपुट को प्रोसेस करता है:
- ऑडियो डेटा निर्दिष्ट चैनलों और सैंपल दर के साथ फ्लोट PCM प्रारूप के रूप में प्राप्त होता है
- प्लगइन मॉडल के आधार पर चेहरे का नियंत्रण डेटा या विज़म उत्पन्न करने के लिए ऑडियो को प्रोसेस करता है
- मूड-सक्षम मॉडल के लिए, भावनात्मक संदर्भ चेहरे के एनीमेशन पर लागू किया जाता है
- एनीमेशन डेटा रीयल-टाइम में चरित्र की चेहरे की हरकतों को संचालित करता है
त्वरित प्रारंभ
अपने चरित्र पर लिप सिंक सक्षम करने के लिए यहाँ एक बुनियादी सेटअप दिया गया है:
- MetaHuman कैरेक्टर्स के लिए, सेटअप गाइड का पालन करें
- कस्टम कैरेक्टर्स के लिए, कस्टम कैरेक्टर सेटअप गाइड का पालन करें
- अपनी पसंदीदा लिप सिंक मॉडल चुनें और कॉन्फ़िगर करें
- अपने Blueprint में ऑडियो इनपुट प्रोसेसिंग सेट करें
- एनीमेशन Blueprint में उपयुक्त लिप सिंक नोड कनेक्ट करें
- ऑडियो चलाएँ और अपने चरित्र को भावनाओं के साथ बोलते हुए देखें!
अतिरिक्त संसाधन
📦 डाउनलोड और लिंक
- Fab पर प्राप्त करें
- उत्पाद वेबसाइट
- डेमो डाउनलोड करें (Windows)
- डेमो स्रोत फ़ाइलें डाउनलोड करें (UE 5.6) – इस प्लगइन + Runtime Audio Importer की आवश्यकता है, वैकल्पिक: Text To Speech / AI Chatbot। मानक मॉडल के लिए एक छोटे एक्सटेंशन प्लगइन की आवश्यकता होती है (यहाँ देखें)
🎥 वीडियो ट्यूटोरियल
फीचर्ड डेमो:
यथार्थवादी मॉडल (उच्च-गुणवत्ता) ट्यूटोरियल:
- मूड नियंत्रण और स्थानीय TTS के साथ उच्च-गुणवत्ता वाला लिप सिंक ⭐ नया
- ElevenLabs और OpenAI TTS के साथ उच्च-गुणवत्ता वाला लिप सिंक
- उच्च-गुणवत्ता वाला लाइव माइक्रोफोन लिप सिंक
मानक मॉडल ट्यूटोरियल:
- मानक लाइव माइक्रोफोन लिप सिंक
- स्थानीय टेक्स्ट-टू-स्पीच के साथ मानक लिप सिंक
- ElevenLabs और OpenAI TTS के साथ मानक लिप सिंक
सामान्य सेटअप:
💬 सहायता
- Discord सहायता सर्वर
- कस्टम विकास: [email protected] (टीमों और संगठनों के लिए अनुरूप समाधान)