ऑडियो प्रोसेसिंग गाइड

यह गाइड आपके लिप सिंक जनरेटरों को ऑडियो डेटा फीड करने के लिए विभिन्न ऑडियो इनपुट विधियों को सेट अप करने का तरीका कवर करती है। आगे बढ़ने से पहले सुनिश्चित करें कि आपने सेटअप गाइड पूरा कर लिया है।

ऑडियो इनपुट प्रोसेसिंग

आपको ऑडियो इनपुट को प्रोसेस करने की एक विधि सेट अप करने की आवश्यकता है। यह आपके ऑडियो स्रोत के आधार पर कई तरीकों से किया जा सकता है।

यह दृष्टिकोण माइक्रोफोन में बोलते समय रियल-टाइम में लिप सिंक करता है:

स्टैंडर्ड मॉडल
यथार्थवादी मॉडल
मूड-सक्षम यथार्थवादी मॉडल

Runtime Audio Importer का उपयोग करके एक Capturable Sound Wave बनाएं
- Pixel Streaming के साथ Linux के लिए, इसके बजाय Pixel Streaming Capturable Sound Wave का उपयोग करें
ऑडियो कैप्चर करना शुरू करने से पहले, OnPopulateAudioData डेलीगेट से बाइंड करें
बाउंड फ़ंक्शन में, अपने Runtime Viseme Generator से ProcessAudioData को कॉल करें
माइक्रोफोन से ऑडियो कैप्चर करना शुरू करें

कॉपी करने योग्य नोड्स.

ऑडियो कैप्चर के दौरान लिप सिंक

यथार्थवादी मॉडल स्टैंडर्ड मॉडल के समान ही ऑडियो प्रोसेसिंग वर्कफ़्लो का उपयोग करता है, लेकिन VisemeGenerator के बजाय RealisticLipSyncGenerator वेरिएबल के साथ।

कॉपी करने योग्य नोड्स.

ऑडियो कैप्चर के दौरान यथार्थवादी लिप सिंक

मूड-सक्षम मॉडल समान ऑडियो प्रोसेसिंग वर्कफ़्लो का उपयोग करता है, लेकिन MoodMetaHumanLipSyncGenerator वेरिएबल और अतिरिक्त मूड कॉन्फ़िगरेशन क्षमताओं के साथ।

कॉपी करने योग्य नोड्स.

ऑडियो कैप्चर के दौरान मूड-सक्षम लिप सिंक

यह दृष्टिकोण माइक्रोफोन से ऑडियो कैप्चर करता है, फिर उसे लिप सिंक के साथ प्लेबैक करता है:

स्टैंडर्ड मॉडल
यथार्थवादी मॉडल
मूड-सक्षम यथार्थवादी मॉडल

Runtime Audio Importer का उपयोग करके एक Capturable Sound Wave बनाएं
- Pixel Streaming के साथ Linux के लिए, इसके बजाय Pixel Streaming Capturable Sound Wave का उपयोग करें
माइक्रोफोन से ऑडियो कैप्चर शुरू करें
कैप्चर करने योग्य साउंड वेव को प्लेबैक करने से पहले, इसके OnGeneratePCMData डेलीगेट से बाइंड करें
बाउंड फ़ंक्शन में, अपने Runtime Viseme Generator से ProcessAudioData को कॉल करें

कॉपी करने योग्य नोड्स.

ऑडियो प्लेबैक के दौरान लिप सिंक

कॉपी करने योग्य नोड्स.

ऑडियो प्लेबैक के दौरान यथार्थवादी लिप सिंक

कॉपी करने योग्य नोड्स.

ऑडियो प्लेबैक के दौरान मूड-सक्षम लिप सिंक

नियमित
Streaming

यह दृष्टिकोण लोकल TTS का उपयोग करके टेक्स्ट से स्पीच सिंथेसाइज़ करता है और लिप सिंक करता है:

स्टैंडर्ड मॉडल
Realistic Model
Mood-Enabled Realistic Model

टेक्स्ट से स्पीच जनरेट करने के लिए Runtime Text To Speech का उपयोग करें
सिंथेसाइज़ किए गए ऑडियो को इम्पोर्ट करने के लिए Runtime Audio Importer का उपयोग करें
इम्पोर्ट की गई साउंड वेव को प्लेबैक करने से पहले, इसके OnGeneratePCMData डेलीगेट से बाइंड करें
बाउंड फ़ंक्शन में, अपने Runtime Viseme Generator से ProcessAudioData को कॉल करें

कॉपी करने योग्य नोड्स.

![सिंथेसाइज़्ड स्पीच से लिप सिंक](/img/runtime-metahuman-lip-sync/lip-sync-from-synthe sized-speech.png)

Realistic Model, Standard Model के समान ऑडियो प्रसंस्करण वर्कफ़्लो का उपयोग करता है, लेकिन VisemeGenerator के बजाय RealisticLipSyncGenerator चर के साथ।

Copyable nodes.

Mood-Enabled Lip Sync From Local TTS

Mood-Enabled Model समान ऑडियो प्रसंस्करण वर्कफ़्लो का उपयोग करता है, लेकिन MoodMetaHumanLipSyncGenerator चर और अतिरिक्त मूड कॉन्फ़िगरेशन क्षमताओं के साथ।

Copyable nodes.

Mood-Enabled Lip Sync From Local TTS

यह दृष्टिकोण रीयल-टाइम लिप सिंक के साथ स्ट्रीमिंग टेक्स्ट-टू-स्पीच सिंथेसिस का उपयोग करता है:

Standard Model
Realistic Model
Mood-Enabled Realistic Model

टेक्स्ट से स्ट्रीमिंग स्पीच जनरेट करने के लिए Runtime Text To Speech का उपयोग करें
सिंथेसाइज़्ड ऑडियो को इम्पोर्ट करने के लिए Runtime Audio Importer का उपयोग करें
स्ट्रीमिंग साउंड वेव को प्लेबैक करने से पहले, इसके OnGeneratePCMData डेलिगेट से बाइंड करें
बाउंड फ़ंक्शन में, अपने Runtime Viseme Generator से ProcessAudioData को कॉल करें

Copyable nodes।

Lip Sync From Synthesized Streaming Speech

Copyable nodes।

Realistic Lip Sync From Streaming Local TTS

Copyable nodes।

Mood-Enabled Lip Sync From Streaming Local TTS

Regular
स्ट्रीमिंग

यह दृष्टिकोण AI सेवाओं (OpenAI या ElevenLabs) से सिंथेसाइज़्ड स्पीच जनरेट करने और लिप सिंक करने के लिए Runtime AI Chatbot Integrator प्लगइन का उपयोग करता है:

Standard Model
Realistic Model
Mood-Enabled Realistic Model

बाहरी APIs (OpenAI, ElevenLabs, आदि) का उपयोग करके टेक्स्ट से स्पीच जनरेट करने के लिए Runtime AI Chatbot Integrator का उपयोग करें
सिंथेसाइज़्ड ऑडियो डेटा को इम्पोर्ट करने के लिए Runtime Audio Importer का उपयोग करें
इम्पोर्ट की गई साउंड वेव को प्लेबैक करने से पहले, इसके OnGeneratePCMData डेलिगेट से बाइंड करें
बाउंड फ़ंक्शन में, अपने Runtime Viseme Generator से ProcessAudioData को कॉल करें

Copyable nodes।

Lip Sync From Externally Synthesized Speech

Copyable nodes।

Realistic Lip Sync From Externally Synthesized Speech

Copyable nodes।

Mood-Enabled Lip Sync From Externally Synthesized Speech

यह दृष्टिकोण सिंथेसाइज्ड स्ट्रीमिंग स्पीच को AI सेवाओं (OpenAI या ElevenLabs) से जनरेट करने और लिप सिंक करने के लिए Runtime AI Chatbot Integrator प्लगइन का उपयोग करता है:

स्टैंडर्ड मॉडल
रियलिस्टिक मॉडल
मूड-एनेबल्ड रियलिस्टिक मॉडल

स्ट्रीमिंग TTS APIs (जैसे ElevenLabs Streaming API) से कनेक्ट करने के लिए Runtime AI Chatbot Integrator का उपयोग करें
सिंथेसाइज्ड ऑडियो डेटा को इम्पोर्ट करने के लिए Runtime Audio Importer का उपयोग करें
स्ट्रीमिंग साउंड वेव को प्लेबैक करने से पहले, इसके OnGeneratePCMData डेलिगेट से बाइंड करें
बाउंड फंक्शन में, अपने Runtime Viseme Generator से ProcessAudioData को कॉल करें

कॉपी करने योग्य नोड्स.

लिप सिंक फ्रॉम एक्सटर्नली सिंथेसाइज्ड स्ट्रीमिंग स्पीच

रियलिस्टिक मॉडल स्टैंडर्ड मॉडल के समान ऑडियो प्रोसेसिंग वर्कफ़्लो का उपयोग करता है, लेकिन VisemeGenerator के बजाय RealisticLipSyncGenerator वेरिएबल के साथ।

कॉपी करने योग्य नोड्स.

रियलिस्टिक लिप सिंक फ्रॉम एक्सटर्नली सिंथेसाइज्ड स्ट्रीमिंग स्पीच

मूड-एनेबल्ड मॉडल समान ऑडियो प्रोसेसिंग वर्कफ़्लो का उपयोग करता है, लेकिन MoodMetaHumanLipSyncGenerator वेरिएबल और अतिरिक्त मूड कॉन्फ़िगरेशन क्षमताओं के साथ।

कॉपी करने योग्य नोड्स.

मूड-एनेबल्ड लिप सिंक फ्रॉम एक्सटर्नली सिंथेसाइज्ड स्ट्रीमिंग स्पीच

यह दृष्टिकोण लिप सिंक के लिए प्री-रिकॉर्डेड ऑडियो फ़ाइलों या ऑडियो बफ़र्स का उपयोग करता है:

स्टैंडर्ड मॉडल
रियलिस्टिक मॉडल
मूड-एनेबल्ड रियलिस्टिक मॉडल

डिस्क या मेमोरी से एक ऑडियो फ़ाइल इम्पोर्ट करने के लिए Runtime Audio Importer का उपयोग करें
इम्पोर्ट की गई साउंड वेव को प्लेबैक करने से पहले, इसके OnGeneratePCMData डेलिगेट से बाइंड करें
बाउंड फंक्शन में, अपने Runtime Viseme Generator से ProcessAudioData को कॉल करें
इम्पोर्ट की गई साउंड वेव को प्ले करें और लिप सिंक एनीमेशन देखें

कॉपी करने योग्य नोड्स.

ऑडियो फ़ाइल से लिप सिंक

कॉपी करने योग्य नोड्स.

ऑडियो फ़ाइल से रियलिस्टिक लिप सिंक

कॉपी करने योग्य नोड्स.

ऑडियो फ़ाइल से मूड-एनेबल्ड लिप सिंक

स्ट्रीमिंग ऑडियो डेटा के लिए, आपको चाहिए:

स्टैंडर्ड मॉडल
रियलिस्टिक मॉडल
Mood-Enabled Realistic Model

फ्लोट PCM फॉर्मेट में ऑडियो डेटा (फ्लोटिंग-पॉइंट सैंपल्स की एक ऐरे) आपके स्ट्रीमिंग स्रोत से उपलब्ध (या अधिक फॉर्मेट्स को सपोर्ट करने के लिए Runtime Audio Importer का उपयोग करें)
सैंपल रेट और चैनलों की संख्या
जैसे ही ऑडियो चंक्स उपलब्ध होते हैं, इन पैरामीटर्स के साथ अपने Runtime Viseme Generator से ProcessAudioData को कॉल करें

कॉपी करने योग्य नोड्स.

स्ट्रीमिंग स्रोत से लिप सिंक

कॉपी करने योग्य नोड्स.

स्ट्रीमिंग स्रोत से रियलिस्टिक लिप सिंक

मूड-सक्षम मॉडल एक ही ऑडियो प्रसंस्करण वर्कफ़्लो का उपयोग करता है, लेकिन MoodMetaHumanLipSyncGenerator वेरिएबल और अतिरिक्त मूड कॉन्फ़िगरेशन क्षमताओं के साथ।

कॉपी करने योग्य नोड्स।

मूड-सक्षम लिप सिंक स्ट्रीमिंग स्रोत से

नोट: स्ट्रीमिंग ऑडियो स्रोतों का उपयोग करते समय, विकृत प्लेबैक से बचने के लिए ऑडियो प्लेबैक टाइमिंग का उचित प्रबंधन सुनिश्चित करें। अधिक जानकारी के लिए स्ट्रीमिंग साउंड वेव दस्तावेज़ीकरण देखें।

प्रसंस्करण प्रदर्शन युक्तियाँ

चंक आकार: यदि आप अधिक उत्तरदायी लिप सिंक के लिए छोटे चंक में ऑडियो डेटा प्रोसेस करना चाहते हैं, तो SetNumSamplesPerChunk फ़ंक्शन में गणना समायोजित करें। उदाहरण के लिए, सैंपल रेट को 100 (हर 10 ms पर स्ट्रीमिंग) के बजाय 150 से विभाजित करने पर (हर ~6.67 ms पर स्ट्रीमिंग) अधिक बार लिप सिंक अपडेट प्रदान करेगा।
बफ़र प्रबंधन: मूड-सक्षम मॉडल ऑडियो को 320-सैंपल फ़्रेम (16kHz पर 20ms) में प्रोसेस करता है। इष्टतम प्रदर्शन के लिए सुनिश्चित करें कि आपका ऑडियो इनपुट टाइमिंग इसके साथ संरेखित हो।
जनरेटर पुनर्निर्माण: रियलिस्टिक मॉडल के साथ विश्वसनीय संचालन के लिए, निष्क्रियता की अवधि के बाद नए ऑडियो डेटा को फ़ीड करना चाहते हैं तो हर बार जनरेटर को फिर से बनाएँ।

अगले कदम

एक बार जब आपके पास ऑडियो प्रसंस्करण सेटअप हो जाए, तो आप चाह सकते हैं:

अपने लिप सिंक व्यवहार को ठीक-ट्यून करने के लिए कॉन्फ़िगरेशन विकल्पों के बारे में जानें
बढ़ी हुई अभिव्यक्ति के लिए हँसी एनीमेशन जोड़ें
कॉन्फ़िगरेशन गाइड में वर्णित लेयरिंग तकनीकों का उपयोग करके मौजूदा चेहरे के एनीमेशन के साथ लिप सिंक को संयोजित करें

ऑडियो इनपुट प्रोसेसिंग​

प्रसंस्करण प्रदर्शन युक्तियाँ​

अगले कदम​

ऑडियो इनपुट प्रोसेसिंग

प्रसंस्करण प्रदर्शन युक्तियाँ

अगले कदम