انتقل إلى المحتوى الرئيسي

نظرة عامة

Runtime MetaHuman Lip Sync Documentation

Runtime MetaHuman Lip Sync هو إضافة تُمكّن مزامنة الشفاه في الوقت الفعلي، دون اتصال، وعبر المنصات لكل من شخصيات MetaHuman والشخصيات المخصصة. تسمح لك بتفعيل شفاه الشخصية استجابةً لإدخال صوتي من مصادر متنوعة، بما في ذلك:

تقوم الإضافة داخليًا بتوليد visemes (تمثيلات مرئية للفونيمات) بناءً على الإدخال الصوتي. نظرًا لأنها تعمل مباشرة مع بيانات الصوت بدلاً من النص، تدعم الإضافة إدخالًا متعدد اللغات بما في ذلك على سبيل المثال لا الحصر الإنجليزية، الإسبانية، الفرنسية، الألمانية، اليابانية، الصينية، الكورية، الروسية، الإيطالية، البرتغالية، العربية، والهندية. أي لغة مدعومة حرفيًا حيث يتم توليد مزامنة الشفاه من فونيمات الصوت وليس من معالجة نصية خاصة بلغة معينة.

ينتج النموذج القياسي 14 viseme ويقوم بتفعيل مزامنة الشفاه باستخدام أصل وضعية مُحدد مسبقًا. في المقابل، تولد النماذج الواقعية (الحصرية لشخصيات MetaHuman) 81 تغييرًا في التحكم الوجهي دون الاعتماد على أصل وضعية مُحدد مسبقًا، مما يؤدي إلى حركات وجهية أكثر واقعية بشكل ملحوظ.

توافق الشخصيات

على الرغم من اسمها، يعمل Runtime MetaHuman Lip Sync مع مجموعة واسعة من الشخصيات تتجاوز MetaHumans فقط:

أنظمة الشخصيات التجارية الشائعة

  • شخصيات Daz Genesis 8/9
  • شخصيات Reallusion Character Creator 3/4 (CC3/CC4)
  • شخصيات Mixamo
  • أفاتار ReadyPlayerMe

دعم معايير التحريك

  • أنظمة blendshape القائمة على FACS
  • معيار Apple ARKit blendshape
  • مجموعات فونيمات Preston Blair
  • أنظمة فونيمات 3ds Max
  • أي شخصية ذات أهداف تشكيل مخصصة للتعبيرات الوجهية

للحصول على تعليمات مفصلة حول استخدام الإضافة مع شخصيات غير MetaHuman، راجع دليل إعداد الشخصية المخصصة.

معاينة التحريك

تحقق من هذه الحركات القصيرة لترى جودة تحريك مزامنة الشفاه التي تنتجها الإضافة عبر أنواع الشخصيات والنماذج المختلفة:

Realistic Lip Sync Example
نموذج واقعي مع شخصية MetaHuman
Standard Lip Sync Example
نموذج قياسي مع شخصية MetaHuman
Custom Character Lip Sync Example
نموذج قياسي مع شخصية مخصصة
Custom Character Lip Sync Example
النموذج القياسي مع شخصية مخصصة

الميزات الرئيسية

  • مزامنة الشفاه في الوقت الفعلي من مدخل الميكروفون
  • دعم معالجة الصوت دون اتصال
  • توافق عبر المنصات مع دعم منصة محدد للنموذج
  • دعم أنظمة الشخصيات المتعددة ومعايير الرسوم المتحركة
  • تعيين وحدات الفيزيم المرن للشخصيات المخصصة
  • دعم لغوي عالمي - يعمل مع أي لغة منطوقة من خلال تحليل الصوت
  • رسوم متحركة للوجه واعية بالمزاج لتعزيز التعبير
  • أنواع مخرجات قابلة للتكوين (الوجه الكامل أو عناصر التحكم للفم فقط)

نماذج مزامنة الشفاه

يقدم البرنامج المساعد نماذج متعددة لمزامنة الشفاه لتناسب احتياجات المشروع المختلفة:

يوفر نموذج مزامنة الشفاه القياسي أداءً كفؤًا عبر المنصات مع توافق واسع للشخصيات:

  • يعمل مع MetaHumans وجميع أنواع الشخصيات المخصصة
  • مُحسَّن لأداء الوقت الفعلي
  • متطلبات موارد أقل
  • توافق كامل مع TTS المحلي (برنامج Runtime Text To Speech المساعد)
  • دعم المنصة: Windows، Android، المنصات القائمة على Android (بما في ذلك Meta Quest)
برنامج مساعد إضافي مطلوب

لاستخدام النموذج القياسي، تحتاج إلى تثبيت برنامج مساعد إضافي. راجع قسم المتطلبات الأساسية للحصول على تعليمات التثبيت.

يمكنك اختيار النموذج المناسب بناءً على متطلبات مشروعك للأداء، وتوافق الشخصية، والجودة البصرية، والمنصة المستهدفة، واحتياجات الميزات.

ملاحظة حول توافق TTS

بينما تدعم جميع النماذج طرق إدخال الصوت المختلفة، فإن النموذج الواقعي العادي لديه توافق محدود مع TTS المحلي بسبب تعارضات وقت تشغيل ONNX. ومع ذلك، فإن النموذج الواقعي المدعوم بالمزاج متوافق بالكامل مع TTS المحلي. لوظيفة تحويل النص إلى كلام:

  • النموذج القياسي: متوافق مع جميع خيارات TTS (المحلية والخارجية)
  • النموذج الواقعي: يُوصى بخدمات TTS الخارجية (OpenAI، ElevenLabs)
  • النموذج الواقعي المدعوم بالمزاج: متوافق مع جميع خيارات TTS (المحلية والخارجية)

آلية العمل

يعالج البرنامج المساعد إدخال الصوت بالطريقة التالية:

  1. يتم استقبال بيانات الصوت بتنسيق PCM عائم مع قنوات ومعدل عينة محددين
  2. يعالج البرنامج المساعد الصوت لتوليد بيانات تحكم وجهية أو وحدات فيزيم اعتمادًا على النموذج
  3. بالنسبة للنماذج المدعومة بالمزاج، يتم تطبيق السياق العاطفي على الرسوم المتحركة للوجه
  4. تقود بيانات الرسوم المتحركة حركات وجه الشخصية في الوقت الفعلي

هندسة الأداء

يستخدم Runtime MetaHuman Lip Sync الاستدلال على وحدة المعالجة المركزية فقط لتقديم نتائج مزامنة شفاه متسقة ومنخفضة الكمون مناسبة للتطبيقات في الوقت الفعلي. بشكل افتراضي، يقوم البرنامج المساعد بإجراء معالجة مزامنة الشفاه كل 10 مللي ثانية (قابلة للتعديل - انظر تكوين البرنامج المساعد لجميع الإعدادات المتاحة بما في ذلك حجم جزء المعالجة، عدد الخيوط، ومعلمات الأداء الأخرى).

نظرة عامة على هندسة النموذج

تستخدم نماذج مزامنة الشفاه شبكة عصبية مدمجة قائمة على المحولات تعالج الصوت من خلال تحليل مخطط الطيف الميل. تم تصميم هذه الهندسة خفيفة الوزن خصيصًا لأداء الوقت الفعلي مع استدلال كفؤ لوحدة المعالجة المركزية وبصمة ذاكرة دنيا.

لماذا الاستدلال على وحدة المعالجة المركزية؟

لعمليات الاستدلال الصغيرة والمتكررة مثل مزامنة الشفاه في الوقت الفعلي، تقدم معالجة وحدة المعالجة المركزية خصائص كمون أفضل من وحدة معالجة الرسومات. بحجم دفعة 1 وفترات استدلال تتراوح بين 10-100 مللي ثانية، غالبًا ما يتجاوز النفقات العامة لوحدة معالجة الرسومات من عمليات نقل PCIe وإطلاق النواة وقت الحساب الفعلي. بالإضافة إلى ذلك، في محركات الألعاب تكون وحدة معالجة الرسومات مشبعة بالفعل بالتقديم، والظلال، والفيزياء، مما يخلق تنافسًا على الموارد يؤدي إلى حدوث طفرات كمون غير متوقعة.

توافق الأجهزة

يعمل البرنامج المساعد بكفاءة على معظم وحدات المعالجة المركزية من المستوى المتوسط وما فوق دون الحاجة إلى أجهزة رسومات مخصصة، مما يوفر أداءً في الوقت الفعلي عبر منصات سطح المكتب، والأجهزة المحمولة، والواقع الافتراضي. للأجهزة الأضعف، يمكنك ضبط نوع النموذج إلى شبه مُحسَّن أو مُحسَّن للغاية، أو زيادة حجم جزء المعالجة للحفاظ على أداء الوقت الفعلي مع استجابة مخفضة قليلاً.

البدء السريع

إليك الإعداد الأساسي لتمكين مزامنة الشفاه على شخصيتك:

  1. لشخصيات MetaHuman، اتبع دليل الإعداد
  2. للشخصيات المخصصة، اتبع دليل إعداد الشخصية المخصصة
  3. اختر وقم بتكوين نموذج مزامنة الشفاه المفضل لديك
  4. قم بإعداد معالجة إدخال الصوت في مخططك الأزرق
  5. قم بتوصيل عقدة مزامنة الشفاه المناسبة في مخطط الرسوم المتحركة الأزرق
  6. شغل الصوت وشاهد شخصيتك تتحدث بعاطفة!

موارد إضافية

📦 التحميلات والروابط

مشاريع تجريبية:

🎥 دروس الفيديو

عروض مميزة:

دروس النموذج الواقعي (عالي الجودة):

دروس النموذج القياسي:

الإعداد العام:

💬 الدعم