نظرة عامة

Runtime MetaHuman Lip Sync هو إضافة تُمكّن مزامنة الشفاه في الوقت الفعلي، دون اتصال، وعبر المنصات لكل من شخصيات MetaHuman والشخصيات المخصصة. يسمح لك برسم حركة شفاه الشخصية استجابةً لمدخلات صوتية من مصادر متنوعة، بما في ذلك:

مدخلات الميكروفون عبر موجة الصوت القابلة للتسجيل الخاصة بـ Runtime Audio Importer
كلام مُركّب من Runtime Text To Speech أو Runtime AI Chatbot Integrator
بيانات صوتية مُدفوعة أو مستوردة بتنسيقات متعددة عبر Runtime Audio Importer
أي بيانات صوتية بتنسيق PCM عائم (مصفوفة من عينات النقطة العائمة)

تقوم الإضافة داخليًا بتوليد فيزيمات (تمثيلات مرئية للفونيمات) بناءً على المدخل الصوتي. نظرًا لأنها تعمل مباشرة مع بيانات الصوت بدلاً من النص، تدعم الإضافة مدخلات متعددة اللغات بما في ذلك على سبيل المثال لا الحصر الإنجليزية، الإسبانية، الفرنسية، الألمانية، اليابانية، الصينية، الكورية، الروسية، الإيطالية، البرتغالية، العربية، والهندية. حرفيًا أي لغة مدعومة لأن مزامنة الشفاه تُولد من فونيمات الصوت وليس من معالجة نصية خاصة بلغة معينة.

ينتج النموذج القياسي 14 فيزيماً ويقوم برسم حركة مزامنة الشفاه باستخدام أصل وضعية مُحدد مسبقًا. في المقابل، تولد النماذج الواقعية (الحصرية لشخصيات MetaHuman) 81 تغييرًا في التحكم الوجهي دون الاعتماد على أصل وضعية مُحدد مسبقًا، مما يؤدي إلى رسوم وجهية أكثر واقعية بشكل ملحوظ.

توافق الشخصيات

على الرغم من اسمها، يعمل Runtime MetaHuman Lip Sync مع مجموعة واسعة من الشخصيات تتجاوز MetaHumans فقط:

أنظمة الشخصيات التجارية الشائعة

شخصيات Daz Genesis 8/9
شخصيات Reallusion Character Creator 3/4 (CC3/CC4)
شخصيات Mixamo
أفاتار ReadyPlayerMe

دعم معايير الرسوم المتحركة

أنظمة أشكال المزج القائمة على FACS
معيار أشكال المزج Apple ARKit
مجموعات فونيمات Preston Blair
أنظمة فونيمات 3ds Max
أي شخصية ذات أهداف تشكيل مخصصة للتعبيرات الوجهية

للحصول على تعليمات مفصلة حول استخدام الإضافة مع شخصيات غير MetaHuman، راجع دليل إعداد الشخصية المخصصة.

معاينة الرسوم المتحركة

تحقق من هذه الرسوم المتحركة القصيرة لترى جودة رسوم مزامنة الشفاه التي تنتجها الإضافة عبر أنواع الشخصيات والنماذج المختلفة:

نموذج واقعي مع شخصية MetaHuman

النموذج القياسي مع شخصية MetaHuman

نموذج قياسي مع شخصية مخصصة

النموذج القياسي مع شخصية مخصصة

الميزات الرئيسية

مزامنة الشفاه في الوقت الفعلي من مدخل الميكروفون
دعم معالجة الصوت دون اتصال
توافق عبر المنصات مع دعم منصة محدد للنموذج
دعم أنظمة الشخصيات المتعددة ومعايير الرسوم المتحركة
تعيين مرن للوحدات الصوتية المرئية (visemes) للشخصيات المخصصة
دعم لغوي عالمي - يعمل مع أي لغة منطوقة من خلال تحليل الصوت
رسوم متحركة للوجه واعية بالمزاج لتعزيز التعبيرية
أنواع مخرجات قابلة للتكوين (الوجه الكامل أو عناصر التحكم للفم فقط)

نماذج مزامنة الشفاه

يقدم البرنامج المساعد نماذج متعددة لمزامنة الشفاه لتناسب احتياجات المشروع المختلفة:

النموذج القياسي
النموذج الواقعي
النموذج الواقعي المدعوم بالمزاج

يوفر نموذج مزامنة الشفاه القياسي أداءً فعالاً عبر المنصات مع توافق واسع للشخصيات:

يعمل مع MetaHumans وجميع أنواع الشخصيات المخصصة
مُحسَّن لأداء الوقت الفعلي
متطلبات موارد أقل
دعم المنصة: Windows، Android، المنصات القائمة على Android (بما في ذلك Meta Quest)

مطلوب برنامج مساعد إضافي

لاستخدام النموذج القياسي، تحتاج إلى تثبيت برنامج مساعد إضافي. راجع قسم المتطلبات الأساسية للحصول على تعليمات التثبيت.

يمكنك اختيار النموذج المناسب بناءً على متطلبات مشروعك للأداء، وتوافق الشخصية، والجودة البصرية، والمنصة المستهدفة، واحتياجات الميزات.

آلية العمل

يعالج البرنامج المساعد مدخلات الصوت بالطريقة التالية:

يتم استقبال بيانات الصوت بتنسيق PCM عائم مع قنوات ومعدل عينة محددين
يعالج البرنامج المساعد الصوت لتوليد بيانات تحكم في الوجه أو وحدات صوتية مرئية (visemes) اعتمادًا على النموذج
بالنسبة للنماذج المدعومة بالمزاج، يتم تطبيق السياق العاطفي على الرسوم المتحركة للوجه
تقوم بيانات الرسوم المتحركة بتحريك تعبيرات وجه الشخصية في الوقت الفعلي

بنية الأداء

يستخدم Runtime MetaHuman Lip Sync الاستدلال على وحدة المعالجة المركزية (CPU) فقط لتقديم نتائج مزامنة شفاه متسقة ومنخفضة الكمون مناسبة للتطبيقات في الوقت الفعلي. بشكل افتراضي، يقوم البرنامج المساعد بإجراء معالجة مزامنة الشفاه كل 10 مللي ثانية (قابل للتعديل - راجع تكوين البرنامج المساعد للحصول على جميع الإعدادات المتاحة بما في ذلك حجم جزء المعالجة، عدد الخيوط، ومعلمات الأداء الأخرى).

نظرة عامة على بنية النموذج

تستخدم نماذج مزامنة الشفاه شبكة عصبية مدمجة قائمة على المحولات (transformer) تعالج الصوت من خلال تحليل مخطط الطيف الميل (mel-spectrogram). تم تصميم هذه البنية الخفيفة الوزن خصيصًا لأداء الوقت الفعلي مع استدلال فعال لوحدة المعالجة المركزية وبصمة ذاكرة دنيا.

لماذا الاستدلال على وحدة المعالجة المركزية؟

للعمليات الصغيرة والمتكررة مثل مزامنة الشفاه في الوقت الفعلي، تقدم معالجة وحدة المعالجة المركزية خصائص كمون أفضل من وحدة معالجة الرسومات. عند حجم دفعة 1 مع فترات استدلال تتراوح بين 10-100 مللي ثانية، غالبًا ما يتجاوز النفقات العامة لوحدة معالجة الرسومات الناتجة عن نقلات PCIe وإطلاق النواة وقت الحوسبة الفعلي. بالإضافة إلى ذلك، في محركات الألعاب، تكون وحدة معالجة الرسومات مشبعة بالفعل بالتقديم، والظلال، والفيزياء، مما يخلق تنافسًا على الموارد يؤدي إلى حدوث طفرات كمون غير متوقعة.

توافق الأجهزة

يعمل البرنامج المساعد بكفاءة على معظم وحدات المعالجة المركزية من المستوى المتوسط وما فوق دون الحاجة إلى أجهزة رسومات مخصصة، مما يوفر أداءً في الوقت الفعلي عبر منصات سطح المكتب، والأجهزة المحمولة، والواقع الافتراضي. بالنسبة للأجهزة الأضعف، يمكنك ضبط نوع النموذج إلى شبه مُحسَّن أو مُحسَّن للغاية، أو زيادة حجم جزء المعالجة للحفاظ على أداء الوقت الفعلي مع تقليل طفيف في الاستجابة.

البدء السريع

إليك الإعداد الأساسي لتمكين مزامنة الشفاه على شخصيتك:

بالنسبة لشخصيات MetaHuman، اتبع دليل الإعداد
بالنسبة للشخصيات المخصصة، اتبع دليل إعداد الشخصية المخصصة
اختر وقم بتكوين نموذج مزامنة الشفاه المفضل لديك
قم بإعداد معالجة مدخلات الصوت في مخططك الأزرق (Blueprint)
قم بتوصيل عقدة مزامنة الشفاه المناسبة في مخطط الرسوم المتحركة الأزرق (Animation Blueprint)
شغل الصوت وشاهد شخصيتك تتحدث بعاطفة!

موارد إضافية

📦 التحميلات والروابط

مشاريع تجريبية:

تجربة الكلام إلى كلام (سير عمل الذكاء الاصطناعي الكامل):
- تحميل التجربة المعبأة (Windows) ⭐ جديد
- تحميل الملفات المصدرية (UE 5.6+) ⭐ جديد
- سير عمل كامل للتعرف على الكلام + روبوت محادثة ذكي + تحويل النص إلى كلام + مزامنة الشفاه
- المتطلبات: هذا البرنامج المساعد + Runtime Audio Importer + Runtime Speech Recognizer + Runtime AI Chatbot Integrator، اختياري: Runtime Text To Speech
تجربة مزامنة الشفاه الأساسية:
- تحميل التجربة المعبأة (Windows)
- تحميل الملفات المصدرية (UE 5.6+)
- سير عمل أساسي: مدخل الميكروفون، ملفات الصوت، تحويل النص إلى كلام
- المتطلبات: هذا البرنامج المساعد + Runtime Audio Importer، اختياري: Text To Speech / AI Chatbot
يتطلب النموذج القياسي برنامجًا مساعدًا إضافيًا صغيرًا (انظر هنا)

🎥 دروس الفيديو

عروض تجريبية مميزة:

دروس النموذج الواقعي (عالي الجودة):

دروس النموذج القياسي:

الإعداد العام:

💬 الدعم

خادم دعم Discord
التطوير المخصص: [email protected] (حلول مخصصة للفرق والمنظمات)

توافق الشخصيات​

أنظمة الشخصيات التجارية الشائعة​

دعم معايير الرسوم المتحركة​

معاينة الرسوم المتحركة​

الميزات الرئيسية​

نماذج مزامنة الشفاه​

آلية العمل​

بنية الأداء​

نظرة عامة على بنية النموذج​

لماذا الاستدلال على وحدة المعالجة المركزية؟​

توافق الأجهزة​

البدء السريع​

موارد إضافية​

📦 التحميلات والروابط​

🎥 دروس الفيديو​

عروض تجريبية مميزة:​

دروس النموذج الواقعي (عالي الجودة):​

دروس النموذج القياسي:​

الإعداد العام:​

💬 الدعم​