मुख्य कंटेंट तक स्किप करें

ऑडियो प्रसंस्करण गाइड

यह गाइड आपके लिप सिंक जनरेटरों को ऑडियो डेटा फीड करने के लिए विभिन्न ऑडियो इनपुट विधियों को सेट अप करने का तरीका बताती है। आगे बढ़ने से पहले सुनिश्चित करें कि आपने सेटअप गाइड पूरा कर लिया है।

ऑडियो इनपुट प्रसंस्करण

आपको ऑडियो इनपुट को प्रोसेस करने की एक विधि सेट अप करने की आवश्यकता है। यह आपके ऑडियो स्रोत के आधार पर कई तरीकों से किया जा सकता है।

यह दृष्टिकोण माइक्रोफोन में बोलते समय रियल-टाइम में लिप सिंक करता है:

  1. Runtime Audio Importer का उपयोग करके एक Capturable Sound Wave बनाएं
  2. ऑडियो कैप्चर करना शुरू करने से पहले, OnPopulateAudioData डेलीगेट से बाइंड करें
  3. बाउंड फ़ंक्शन में, अपने Runtime Viseme Generator से ProcessAudioData को कॉल करें
  4. माइक्रोफोन से ऑडियो कैप्चर करना शुरू करें

कॉपी करने योग्य नोड्स.

ऑडियो कैप्चर के दौरान लिप सिंक

प्रसंस्करण प्रदर्शन युक्तियाँ

  • चंक आकार: ProcessingChunkSize कॉन्फ़िगरेशन विकल्प को बढ़ाना (जैसे 320, 480, या 640 नमूनों तक) गुणवत्ता या प्रतिक्रियाशीलता पर न्यूनतम प्रभाव के साथ विलंबता में उल्लेखनीय सुधार कर सकता है।

  • मॉडल प्रकार: Realistic मॉडल का उपयोग करते समय, अत्यधिक अनुकूलित मॉडल प्रकार (डिफ़ॉल्ट रूप से चयनित) पर स्विच करने से प्रदर्शन में सुधार हो सकता है। ध्यान दें कि मूल मॉडल थोड़ी बेहतर गुणवत्ता उत्पन्न कर सकता है, विशेष रूप से शोर वाले ऑडियो के साथ।

  • बफ़र प्रबंधन: मूड-सक्षम मॉडल ऑडियो को 320-नमूना फ़्रेम (16kHz पर 20ms) में संसाधित करता है। इष्टतम प्रदर्शन के लिए सुनिश्चित करें कि आपका ऑडियो इनपुट टाइमिंग इसके साथ संरेखित हो।

  • जनरेटर पुनर्निर्माण: रियलिस्टिक मॉडल के साथ विश्वसनीय संचालन के लिए, निष्क्रियता की अवधि के बाद नया ऑडियो डेटा फीड करना चाहते हैं तो हर बार जनरेटर को पुनः बनाएं।

अगले कदम

एक बार जब आपका ऑडियो प्रोसेसिंग सेटअप हो जाए, तो आप यह करना चाह सकते हैं:

  • अपने लिप सिंक व्यवहार को ठीक-ट्यून करने के लिए कॉन्फ़िगरेशन विकल्पों के बारे में जानें
  • बेहतर अभिव्यक्ति के लिए हँसी एनीमेशन जोड़ें
  • कॉन्फ़िगरेशन गाइड में वर्णित लेयरिंग तकनीकों का उपयोग करके मौजूदा चेहरे के एनीमेशन के साथ लिप सिंक को संयोजित करें