मुख्य कंटेंट तक स्किप करें

अवलोकन

Runtime MetaHuman Lip Sync दस्तावेज़ीकरण

Runtime MetaHuman Lip Sync एक प्लगइन है जो मेटाह्यूमन और कस्टम दोनों प्रकार के कैरेक्टर्स के लिए रियल-टाइम, ऑफ़लाइन और क्रॉस-प्लेटफ़ॉर्म लिप सिंक सक्षम करता है। यह आपको विभिन्न स्रोतों से ऑडियो इनपुट के जवाब में किसी कैरेक्टर के होंठों को एनिमेट करने की अनुमति देता है, जिसमें शामिल हैं:

प्लगइन आंतरिक रूप से ऑडियो इनपुट के आधार पर विसेम्स (फोनिम्स के दृश्य प्रतिनिधित्व) उत्पन्न करता है। चूंकि यह सीधे टेक्स्ट के बजाय ऑडियो डेटा के साथ काम करता है, प्लगइन बहुभाषी इनपुट का समर्थन करता है जिसमें अंग्रेजी, स्पेनिश, फ्रेंच, जर्मन, जापानी, चीनी, कोरियाई, रूसी, इतालवी, पुर्तगाली, अरबी और हिंदी शामिल हैं लेकिन यह इन्हीं तक सीमित नहीं है। वस्तुतः कोई भी भाषा समर्थित है क्योंकि लिप सिंक ऑडियो फोनिम्स से उत्पन्न होता है न कि भाषा-विशिष्ट टेक्स्ट प्रोसेसिंग से।

मानक मॉडल 14 विसेम्स उत्पन्न करता है और एक पूर्वनिर्धारित पोज़ एसेट का उपयोग करके लिप सिंक एनीमेशन करता है। इसके विपरीत, यथार्थवादी मॉडल (विशेष रूप से मेटाह्यूमन कैरेक्टर्स के लिए) एक पूर्वनिर्धारित पोज़ एसेट पर निर्भर किए बिना 81 चेहरे के नियंत्रण परिवर्तन उत्पन्न करते हैं, जिसके परिणामस्वरूप काफी अधिक यथार्थवादी चेहरे की एनिमेशन होती हैं।

कैरेक्टर संगतता

अपने नाम के बावजूद, Runtime MetaHuman Lip Sync सिर्फ मेटाह्यूमन से परे कैरेक्टर्स की एक विस्तृत श्रृंखला के साथ काम करता है:

लोकप्रिय वाणिज्यिक कैरेक्टर सिस्टम

  • Daz Genesis 8/9 कैरेक्टर्स
  • Reallusion Character Creator 3/4 (CC3/CC4) कैरेक्टर्स
  • Mixamo कैरेक्टर्स
  • ReadyPlayerMe अवतार

एनीमेशन मानक समर्थन

  • FACS-आधारित ब्लेंडशेप सिस्टम
  • Apple ARKit ब्लेंडशेप मानक
  • Preston Blair फोनेम सेट
  • 3ds Max फोनेम सिस्टम
  • चेहरे के भावों के लिए कस्टम मॉर्फ टार्गेट वाला कोई भी कैरेक्टर

गैर-मेटाह्यूमन कैरेक्टर्स के साथ प्लगइन का उपयोग करने के विस्तृत निर्देशों के लिए, कस्टम कैरेक्टर सेटअप गाइड देखें।

एनीमेशन पूर्वावलोकन

विभिन्न कैरेक्टर प्रकारों और मॉडलों में प्लगइन द्वारा उत्पादित लिप सिंक एनीमेशन की गुणवत्ता देखने के लिए इन छोटी एनिमेशनों को देखें:

Realistic Lip Sync Example
यथार्थवादी मॉडल मेटाह्यूमन कैरेक्टर के साथ
Standard Lip Sync Example
मानक मॉडल मेटाह्यूमन कैरेक्टर के साथ
Custom Character Lip Sync Example
मानक मॉडल कस्टम चरित्र के साथ
Custom Character Lip Sync Example
Standard model with custom character

मुख्य विशेषताएं

  • माइक्रोफोन इनपुट से रियल-टाइम लिप सिंक
  • ऑफलाइन ऑडियो प्रोसेसिंग सपोर्ट
  • मॉडल-विशिष्ट प्लेटफॉर्म सपोर्ट के साथ क्रॉस-प्लेटफॉर्म संगतता
  • एकाधिक कैरेक्टर सिस्टम और एनीमेशन मानकों के लिए सपोर्ट
  • कस्टम कैरेक्टर्स के लिए लचीला विसेम मैपिंग
  • सार्वभौमिक भाषा सपोर्ट - ऑडियो विश्लेषण के माध्यम से किसी भी बोली जाने वाली भाषा के साथ काम करता है
  • बेहतर अभिव्यक्ति के लिए मूड-अवेयर फेशियल एनीमेशन
  • कॉन्फ़िगरेबल आउटपुट प्रकार (पूरा चेहरा या केवल मुंह के नियंत्रण)

लिप सिंक मॉडल

यह प्लगइन विभिन्न प्रोजेक्ट आवश्यकताओं के अनुरूप कई लिप सिंक मॉडल प्रदान करता है:

स्टैंडर्ड लिप सिंक मॉडल व्यापक कैरेक्टर संगतता के साथ कुशल, क्रॉस-प्लेटफॉर्म प्रदर्शन प्रदान करता है:

  • MetaHumans और सभी कस्टम कैरेक्टर प्रकारों के साथ काम करता है
  • रियल-टाइम प्रदर्शन के लिए अनुकूलित
  • कम संसाधन आवश्यकताएं
  • स्थानीय TTS (Runtime Text To Speech plugin) के साथ पूर्ण संगतता
  • प्लेटफॉर्म सपोर्ट: Windows, Android, Android-आधारित प्लेटफॉर्म (Meta Quest सहित)
  • तीन अनुकूलन स्तर: Original, Semi-Optimized, और Highly Optimized
एक्सटेंशन प्लगइन आवश्यक

Standard Model का उपयोग करने के लिए, आपको एक अतिरिक्त एक्सटेंशन प्लगइन इंस्टॉल करने की आवश्यकता है। इंस्टॉलेशन निर्देशों के लिए Prerequisites section देखें।

आप प्रदर्शन, चरित्र संगतता, दृश्य गुणवत्ता, लक्ष्य प्लेटफ़ॉर्म और सुविधा आवश्यकताओं के आधार पर अपनी परियोजना की आवश्यकताओं के अनुरूप उपयुक्त मॉडल चुन सकते हैं।

TTS संगतता नोट

हालांकि सभी मॉडल विभिन्न ऑडियो इनपुट विधियों का समर्थन करते हैं, नियमित यथार्थवादी मॉडल की ONNX रनटाइम संघर्षों के कारण स्थानीय TTS के साथ सीमित संगतता है। हालांकि, मूड-सक्षम यथार्थवादी मॉडल स्थानीय TTS के साथ पूरी तरह से संगत है। टेक्स्ट-टू-स्पीच कार्यक्षमता के लिए:

  • मानक मॉडल: सभी TTS विकल्पों (स्थानीय और बाहरी) के साथ संगत
  • यथार्थवादी मॉडल: बाहरी TTS सेवाओं की सिफारिश की गई (OpenAI, ElevenLabs)
  • मूड-सक्षम यथार्थवादी मॉडल: सभी TTS विकल्पों (स्थानीय और बाहरी) के साथ संगत

यह कैसे काम करता है

प्लगइन निम्नलिखित तरीके से ऑडियो इनपुट को संसाधित करता है:

  1. ऑडियो डेटा निर्दिष्ट चैनलों और सैंपल दर के साथ फ्लोट PCM प्रारूप के रूप में प्राप्त होता है
  2. प्लगइन मॉडल के आधार पर चेहरे का नियंत्रण डेटा या विज़म उत्पन्न करने के लिए ऑडियो को संसाधित करता है
  3. मूड-सक्षम मॉडल के लिए, चेहरे की एनीमेशन पर भावनात्मक संदर्भ लागू किया जाता है
  4. एनीमेशन डेटा रीयल-टाइम में चरित्र की चेहरे की हरकतों को संचालित करता है

त्वरित प्रारंभ

अपने चरित्र पर लिप सिंक सक्षम करने के लिए यहाँ एक बुनियादी सेटअप दिया गया है:

  1. MetaHuman पात्रों के लिए, सेटअप गाइड का पालन करें
  2. कस्टम पात्रों के लिए, कस्टम कैरेक्टर सेटअप गाइड का पालन करें
  3. अपनी पसंदीदा लिप सिंक मॉडल चुनें और कॉन्फ़िगर करें
  4. अपने ब्लूप्रिंट में ऑडियो इनपुट प्रोसेसिंग सेट करें
  5. एनीमेशन ब्लूप्रिंट में उपयुक्त लिप सिंक नोड कनेक्ट करें
  6. ऑडियो चलाएँ और अपने चरित्र को भावनाओं के साथ बोलते हुए देखें!

अतिरिक्त संसाधन

📦 डाउनलोड और लिंक

🎥 वीडियो ट्यूटोरियल

फ़ीचर्ड डेमो:

यथार्थवादी मॉडल (उच्च-गुणवत्ता) ट्यूटोरियल:

स्टैंडर्ड मॉडल ट्यूटोरियल:

सामान्य सेटअप:

💬 सहायता