انتقل إلى المحتوى الرئيسي

نظرة عامة

Runtime MetaHuman Lip Sync Documentation

Runtime MetaHuman Lip Sync هو مكون إضافي يمكّن من مزامنة الشفاه في الوقت الفعلي، دون اتصال، وعبر المنصات لكل من شخصيات MetaHuman والشخصيات المخصصة. يسمح لك برسم حركة شفاه الشخصية استجابةً لمدخلات صوتية من مصادر متنوعة، بما في ذلك:

يولد المكون الإضافي داخليًا فيزيمات (تمثيلات مرئية للفونيمات) بناءً على مدخلات الصوت. نظرًا لأنه يعمل مباشرةً مع بيانات الصوت بدلاً من النص، يدعم المكون الإضافي مدخلات متعددة اللغات بما في ذلك على سبيل المثال لا الحصر الإنجليزية، والإسبانية، والفرنسية، والألمانية، واليابانية، والصينية، والكورية، والروسية، والإيطالية، والبرتغالية، والعربية، والهندية. أي لغة مدعومة حرفيًا حيث يتم توليد مزامنة الشفاه من فونيمات الصوت بدلاً من معالجة نصية خاصة بلغة.

ينتج النموذج القياسي 14 فيزيماً ويقوم برسم حركة مزامنة الشفاه باستخدام أصول وضعية محددة مسبقًا. في المقابل، تولد النماذج الواقعية (الحصرية لشخصيات MetaHuman والشخصيات القائمة على ARKit) 81 تغييرًا في التحكم الوجهي دون الاعتماد على أصول وضعية محددة مسبقًا، مما يؤدي إلى رسوم وجهية أكثر واقعية بشكل ملحوظ.

توافق الشخصيات

على الرغم من اسمه، يعمل Runtime MetaHuman Lip Sync مع مجموعة واسعة من الشخصيات تتجاوز MetaHumans فقط:

أنظمة الشخصيات التجارية الشائعة

  • شخصيات Daz Genesis 8/9
  • شخصيات Reallusion Character Creator 3/4 (CC3/CC4)
  • شخصيات Mixamo
  • أفاتار ReadyPlayerMe

دعم معايير الرسوم المتحركة

  • أنظمة blendshape القائمة على FACS
  • معيار blendshape الخاص بـ Apple ARKit
  • مجموعات فونيمات Preston Blair
  • أنظمة فونيمات 3ds Max
  • أي شخصية ذات أهداف تشكيل مخصصة للتعبيرات الوجهية

للحصول على تعليمات مفصلة حول استخدام المكون الإضافي مع شخصيات غير MetaHuman، راجع دليل إعداد الشخصيات المخصصة.

معاينة الرسوم المتحركة

تحقق من هذه الرسوم المتحركة القصيرة لترى جودة رسوم مزامنة الشفاه التي ينتجها المكون الإضافي عبر أنواع الشخصيات والنماذج المختلفة:

نموذج واقعي مع شخصية MetaHuman
النموذج القياسي مع شخصية MetaHuman
النموذج القياسي مع شخصية مخصصة
النموذج القياسي مع شخصية مخصصة

الميزات الرئيسية

  • مزامنة الشفاه في الوقت الفعلي من مدخل الميكروفون
  • دعم معالجة الصوت بلا اتصال
  • توافق عبر المنصات مع دعم منصات محدد للنموذج
  • دعم أنظمة شخصيات متعددة ومعايير للرسوم المتحركة
  • تعيين مرن للوحدات الصوتية المرئية (visemes) للشخصيات المخصصة
  • دعم لغات عالمي - يعمل مع أي لغة منطوقة من خلال تحليل الصوت
  • رسوم متحركة للوجه واعية بالمزاج لتعزيز التعبيرية
  • أنواع مخرجات قابلة للتكوين (الوجه الكامل أو عناصر تحكم الفم فقط)

نماذج مزامنة الشفاه

تقدم الإضافة عدة نماذج لمزامنة الشفاه لتلائم احتياجات المشروع المختلفة:

يوفر نموذج مزامنة الشفاه القياسي أداءً فعالاً عبر المنصات مع توافق واسع مع الشخصيات:

  • يعمل مع MetaHumans وجميع أنواع الشخصيات المخصصة
  • مُحسّن لأداء الوقت الفعلي
  • متطلبات موارد أقل
  • دعم المنصة: Windows, Android, Android-based platforms (بما في ذلك Meta Quest)
إضافة ملحقة مطلوبة

لاستخدام Standard Model، تحتاج إلى تثبيت إضافة ملحقة إضافية. راجع قسم المتطلبات الأساسية للحصول على تعليمات التثبيت.

يمكنك اختيار النموذج المناسب بناءً على متطلبات مشروعك للأداء، وتوافق الشخصية، والجودة البصرية، والمنصة المستهدفة، واحتياجات الميزات.

آلية العمل

تعالج الإضافة مدخلات الصوت بالطريقة التالية:

  1. يتم استقبال بيانات الصوت بتنسيق PCM عائم مع قنوات ومعدل عينة محددين
  2. تعالج الإضافة الصوت لتوليد بيانات تحكم وجهية أو وحدات صوتية مرئية (visemes) اعتمادًا على النموذج
  3. بالنسبة للنماذج المدعومة بالمزاج، يتم تطبيق السياق العاطفي على الرسوم المتحركة للوجه
  4. تقود بيانات الرسوم المتحركة حركات وجه الشخصية في الوقت الفعلي

بنية الأداء

يستخدم Runtime MetaHuman Lip Sync الاستدلال على وحدة المعالجة المركزية (CPU) فقط لتقديم نتائج مزامنة شفاه متسقة ومنخفضة الكمون مناسبة للتطبيقات في الوقت الفعلي. بشكل افتراضي، تقوم الإضافة بمعالجة مزامنة الشفاه كل 10 مللي ثانية (قابل للتعديل - انظر Plugin Configuration للحصول على جميع الإعدادات المتاحة بما في ذلك Processing Chunk Size، عدد الخيوط (thread count)، ومعلمات الأداء الأخرى).

نظرة عامة على بنية النموذج

تستخدم نماذج مزامنة الشفاه شبكة عصبية مدمجة قائمة على المحولات (transformer) تعالج الصوت من خلال تحليل مخطط الطيف الميل (mel-spectrogram). تم تصميم هذه البنية الخفيفة الوزن خصيصًا لأداء الوقت الفعلي مع استدلال فعال على وحدة المعالجة المركزية وبصمة ذاكرة دنيا.

لماذا الاستدلال على وحدة المعالجة المركزية؟

للعمليات الصغيرة والمتكررة مثل مزامنة الشفاه في الوقت الفعلي، تقدم معالجة وحدة المعالجة المركزية خصائص كمون أفضل من وحدة معالجة الرسومات. عند حجم دفعة (batch size) 1 مع فترات استدلال تتراوح بين 10-100 مللي ثانية، غالبًا ما يتجاوز الحمل الزائد لوحدة معالجة الرسومات الناتج عن نقلات PCIe وإطلاق النواة وقت الحوسبة الفعلي. بالإضافة إلى ذلك، في محركات الألعاب تكون وحدة معالجة الرسومات مشبعة بالفعل بالتقديم (rendering)، والمظللات (shaders)، والفيزياء، مما يخلق تنافسًا على الموارد يؤدي إلى حدوث طفرات كمون غير متوقعة.

توافق الأجهزة

تعمل الإضافة بكفاءة على معظم وحدات المعالجة المركزية من المستوى المتوسط وما فوق دون الحاجة إلى أجهزة رسومات مخصصة، مما يوفر أداءً في الوقت الفعلي عبر منصات سطح المكتب، والهواتف المحمولة، والواقع الافتراضي. للأجهزة الأضعف، يمكنك ضبط Model Type إلى Semi-Optimized أو Highly Optimized، أو زيادة Processing Chunk Size للحفاظ على أداء الوقت الفعلي مع استجابة أقل قليلاً.

البدء السريع

إليك الإعداد الأساسي لتمكين مزامنة الشفاه على شخصيتك:

  1. لشخصيات MetaHuman، اتبع دليل الإعداد
  2. للشخصيات المخصصة، اتبع دليل إعداد الشخصية المخصصة
  3. اختر وقم بتكوين نموذج مزامنة الشفاه المفضل لديك
  4. قم بإعداد معالجة مدخلات الصوت في مخططك الأزرق (Blueprint)
  5. قم بتوصيل عقدة مزامنة الشفاه المناسبة في مخطط الرسوم المتحركة الأزرق (Animation Blueprint)
  6. شغل الصوت وشاهد شخصيتك تتحدث بعاطفة!

موارد إضافية

📦 التحميلات والروابط

مشاريع تجريبية:

🎥 دروس فيديو

عروض مميزة:

دروس Realistic Model (عالية الجودة):

دروس Standard Model:

إعداد عام:

💬 الدعم

  • تطوير مخصص: [email protected] (حلول مخصصة للفرق والمنظمات)
Join our Discord
online · support