نظرة عامة

Runtime MetaHuman Lip Sync هو مكون إضافي يمكّن مزامنة الشفاه في الوقت الفعلي، دون اتصال، وعبر المنصات لكل من شخصيات MetaHuman والشخصيات المخصصة. يسمح لك برسم حركة شفاه الشخصية استجابةً لإدخال صوتي من مصادر متنوعة، بما في ذلك:
- إدخال الميكروفون عبر موجة الصوت القابلة للتسجيل الخاصة بـ Runtime Audio Importer
- كلام مُركّب من Runtime Text To Speech أو Runtime AI Chatbot Integrator
- بيانات صوتية مُدفوعة أو مستوردة بتنسيقات متعددة عبر Runtime Audio Importer
- أي بيانات صوتية بتنسيق PCM عائم (مصفوفة من عينات النقطة العائمة)
يولد المكون الإضافي داخليًا فيزيمات (تمثيلات مرئية للفونيمات) بناءً على الإدخال الصوتي. نظرًا لأنه يعمل مباشرة مع بيانات الصوت بدلاً من النص، يدعم المكون الإضافي إدخالًا متعدد اللغات بما في ذلك على سبيل المثال لا الحصر الإنجليزية، الإسبانية، الفرنسية، الألمانية، اليابانية، الصينية، الكورية، الروسية، الإيطالية، البرتغالية، العربية، والهندية. أي لغة مدعومة حرفيًا حيث يتم توليد مزامنة الشفاه من فونيمات الصوت بدلاً من معالجة نصية خاصة بلغة معينة.
ينتج النموذج القياسي 14 فيزيماً ويقوم برسم حركة مزامنة الشفاه باستخدام أصل وضعية مسبقة التعريف. في المقابل، تولد النماذج الواقعية (الحصرية لشخصيات MetaHuman) 81 تغييرًا في التحكم الوجهي دون الاعتماد على أصل وضعية مسبقة التعريف، مما يؤدي إلى رسوم وجهية أكثر واقعية بشكل ملحوظ.
توافق الشخصيات
على الرغم من اسمه، يعمل Runtime MetaHuman Lip Sync مع مجموعة واسعة من الشخصيات تتجاوز MetaHumans فقط:
أنظمة الشخصيات التجارية الشائعة
- شخصيات Daz Genesis 8/9
- شخصيات Reallusion Character Creator 3/4 (CC3/CC4)
- شخصيات Mixamo
- أفاتار ReadyPlayerMe
دعم معايير الرسوم المتحركة
- أنظمة blendshape القائمة على FACS
- معيار blendshape الخاص بـ Apple ARKit
- مجموعات فونيمات Preston Blair
- أنظمة فونيمات 3ds Max
- أي شخصية ذات أهداف تشكيل مخصصة للتعبيرات الوجهية
للحصول على تعليمات مفصلة حول استخدام المكون الإضافي مع شخصيات غير MetaHuman، راجع دليل إعداد الشخصية المخصصة.
معاينة الرسوم المتحركة
تحقق من هذه الرسوم المتحركة القصيرة لترى جودة رسوم مزامنة الشفاه التي ينتجها المكون الإضافي عبر أنواع الشخصيات والنماذج المختلفة:




الميزات الرئيسية
- مزامنة الشفاه في الوقت الفعلي من مدخل الميكروفون
- دعم معالجة الصوت دون اتصال
- توافق عبر المنصات مع دعم منصة محدد للنموذج
- دعم أنظمة الشخصيات المتعددة ومعايير الرسوم المتحركة
- تعيين وحدات اللفظ المرنة للشخصيات المخصصة
- دعم اللغة العالمية - يعمل مع أي لغة منطوقة من خلال تحليل الصوت
- رسوم متحركة للوجه واعية بالمزاج لتحسين التعبير
- أنواع مخرجات قابلة للتكوين (الوجه الكامل أو عناصر التحكم للفم فقط)
نماذج مزامنة الشفاه
يقدم البرنامج المساعد نماذج متعددة لمزامنة الشفاه لتلبية احتياجات المشروع المختلفة:
- النموذج القياسي
- النموذج الواقعي
- النموذج الواقعي المدعوم بالمزاج
يوفر نموذج مزامنة الشفاه القياسي أداءً فعالاً عبر المنصات مع توافق واسع للشخصيات:
- يعمل مع MetaHumans وجميع أنواع الشخصيات المخصصة
- مُحسَّن لأداء الوقت الفعلي
- متطلبات موارد أقل
- توافق كامل مع TTS المحلي (برنامج Runtime Text To Speech المساعد)
- دعم المنصة: Windows، Android، المنصات القائمة على Android (بما في ذلك Meta Quest)
لاستخدام النموذج القياسي، تحتاج إلى تثبيت برنامج مساعد إضافي. راجع قسم المتطلبات الأساسية للحصول على تعليمات التثبيت.
يقدم نموذج مزامنة الشفاه الواقعي دقة بصرية محسنة مخصصة لشخصيات MetaHuman:
- حصري لـ MetaHuman مع رسوم متحركة متقدمة للوجه (81 عنصر تحكم في الوجه)
- جودة بصرية أعلى مع حركات فم أكثر طبيعية
- متطلبات أداء أعلى قليلاً
- دعم محدود لـ TTS المحلي (يُوصى بخدمات TTS خارجية)
- مثالي للتجارب السينمائية وتفاعلات الشخصيات عن قرب
- دعم المنصة: Windows، Mac، iOS، Linux، Android، المنصات القائمة على Android (بما في ذلك Meta Quest)
- ثلاثة مستويات تحسين: الأصلي، شبه المُحسَّن، والمُحسَّن للغاية
النموذج الواقعي مدرج في البرنامج المساعد الرئيسي ولا يتطلب أي إضافات لاستخدامه.
يوفر النموذج الواقعي المدعوم بالمزاج رسومًا متحركة للوجه واعية بالعاطفة لشخصيات MetaHuman:
- حصري لـ MetaHuman مع رسوم متحركة للوجه تستجيب للمزاج
- 12 نوعًا مختلفًا من المزاج (محايد، سعيد، حزين، واثق، إلخ)
- شدة مزاج قابلة للتكوين (من 0.0 إلى 1.0)
- توقيت استباقي قابل للتعديل لتحسين المزامنة (من 20 مللي ثانية إلى 200 مللي ثانية)
- أنواع مخرجات قابلة للتحديد: الوجه الكامل أو عناصر التحكم للفم فقط
- معالجة صوتية متدفقة للتطبيقات في الوقت الفعلي
- دعم المنصة: Windows، Mac، iOS، Linux، Android، المنصات القائمة على Android (بما في ذلك Meta Quest)
يتضمن النموذج المدعوم بالمزاج ميزات متقدمة مثل توقيت النظر للأمام القابل للتكوين وإخراج التحكم الانتقائي، مما يجعله مثاليًا للتطبيقات التي تتطلب التحكم في التعبير العاطفي.
يمكنك اختيار النموذج المناسب بناءً على متطلبات مشروعك فيما يتعلق بالأداء، والتوافق مع الشخصية، والجودة البصرية، ومنصة الهدف، واحتياجات الميزات.
بينما تدعم جميع النماذج طرق إدخال صوتية متنوعة، فإن النموذج الواقعي العادي له توافق محدود مع تحويل النص إلى كلام المحلي (local TTS) بسبب تعارضات وقت تشغيل ONNX. ومع ذلك، فإن النموذج الواقعي المدعوم بالمزاج متوافق بالكامل مع تحويل النص إلى كلام المحلي. فيما يتعلق بوظيفة تحويل النص إلى كلام:
- النموذج القياسي: متوافق مع جميع خيارات تحويل النص إلى كلام (المحلي والخارجي)
- النموذج الواقعي: يُوصى بخدمات تحويل النص إلى كلام الخارجية (OpenAI، ElevenLabs)
- النموذج الواقعي المدعوم بالمزاج: متوافق مع جميع خيارات تحويل النص إلى كلام (المحلي والخارجي)
كيف يعمل
يقوم البرنامج المساعد بمعالجة إدخال الصوت بالطريقة التالية:
- يتم استقبال بيانات الصوت بتنسيق PCM من نوع float مع قنوات ومعدل عينة محددين
- يعالج البرنامج المساعد الصوت لتوليد بيانات تحكم للوجه أو visemes اعتمادًا على النموذج
- بالنسبة للنماذج المدعومة بالمزاج، يتم تطبيق السياق العاطفي على الرسوم المتحركة للوجه
- تقوم بيانات الرسوم المتحركة بتشغيل حركات وجه الشخصية في الوقت الفعلي
هندسة الأداء
يستخدم Runtime MetaHuman Lip Sync الاستدلال المعتمد على وحدة المعالجة المركزية (CPU) فقط لتقديم نتائج مزامنة شفاه متسقة ومنخفضة الكمون ومناسبة للتطبيقات في الوقت الفعلي. بشكل افتراضي، يقوم البرنامج المساعد بإجراء معالجة مزامنة الشفاه كل 10 مللي ثانية (قابل للتعديل - راجع تكوين البرنامج المساعد للحصول على جميع الإعدادات المتاحة بما في ذلك حجم جزء المعالجة، عدد الخيوط، ومعلمات الأداء الأخرى).
نظرة عامة على هندسة النموذج
تستخدم نماذج مزامنة الشفاه شبكة عصبية مدمجة قائمة على المحولات (transformer) تعالج الصوت من خلال تحليل مخطط الطيف الميل (mel-spectrogram). تم تصميم هذه الهندسة خفيفة الوزن خصيصًا لأداء في الوقت الفعلي مع استدلال فعال لوحدة المعالجة المركزية وبصمة ذاكرة دنيا.
لماذا الاستدلال بواسطة وحدة المعالجة المركزية (CPU)؟
بالنسبة لعمليات الاستدلال الصغيرة والمتكررة مثل مزامنة الشفاه في الوقت الفعلي، تقدم معالجة وحدة المعالجة المركزية خصائص كمون أفضل من وحدة معالجة الرسومات (GPU). عند حجم دفعة 1 وفترات استدلال تتراوح بين 10-100 مللي ثانية، غالبًا ما يتجاوز الحمل الزائد لوحدة معالجة الرسومات الناتج عن عمليات نقل PCIe وإطلاق النواة (kernel launches) وقت الحوسبة الفعلي. بالإضافة إلى ذلك، في محركات الألعاب، تكون وحدة معالجة الرسومات مشبعة بالفعل بالتقديم (rendering)، والمظللات (shaders)، والفيزياء، مما يخلق تنافسًا على الموارد يؤدي إلى حدوث طفرات كمون غير متوقعة.
التوافق مع الأجهزة
يعمل البرنامج المساعد بكفاءة على معظم وحدات المعالجة المركزية متوسطة المستوى والأعلى دون الحاجة إلى أجهزة رسومات مخصصة، مما يوفر أداءً في الوقت الفعلي عبر منصات سطح المكتب والهواتف المحمولة والواقع الافتراضي. بالنسبة للأجهزة الأضعف، يمكنك ضبط نوع النموذج إلى شبه مُحسَّن أو مُحسَّن للغاية، أو زيادة حجم جزء المعالجة للحفاظ على الأداء في الوقت الفعلي مع تقليل طفيف في سرعة الاستجابة.
البدء السريع
إليك إعداد أساسي لتمكين مزامنة الشفاه على شخصيتك:
- بالنسبة لشخصيات MetaHuman، اتبع دليل الإعداد
- بالنسبة للشخصيات المخصصة، اتبع دليل إعداد الشخصية المخصصة
- اختر وضبط نموذج مزامنة الشفاه المفضل لديك
- قم بإعداد معالجة إدخال الصوت في مخططك الأزرق (Blueprint)
- قم بتوصيل عقدة مزامنة الشفاه المناسبة في مخطط الرسوم المتحركة الأزرق (Animation Blueprint)
- شغل الصوت وشاهد شخصيتك تتحدث بمشاعر!
موارد إضافية
📦 التحميلات والروابط
- احصل عليه على Fab
- موقع المنتج
- تحميل العرض التوضيحي (Windows)
- تحميل ملفات مصدر العرض التوضيحي (UE 5.6) – يتطلب هذا البرنامج المساعد + Runtime Audio Importer، اختياري: Text To Speech / AI Chatbot. يتطلب النموذج القياسي برنامجًا مساعدًا إضافيًا صغيرًا (انظر هنا)
🎥 دروس الفيديو
العرض التوضيحي المميز:
دروس النموذج الواقعي (عالي الجودة):
- مزامنة شفاه عالية الجودة مع التحكم في المزاج و TTS محلي ⭐ جديد
- مزامنة شفاه عالية الجودة مع ElevenLabs و OpenAI TTS
- مزامنة شفاه مباشرة عالية الجودة باستخدام الميكروفون
دروس النموذج القياسي:
- مزامنة شفاه مباشرة قياسية باستخدام الميكروفون
- مزامنة شفاه قياسية مع تحويل النص إلى كلام محلي
- مزامنة شفاه قياسية مع ElevenLabs و OpenAI TTS
الإعداد العام:
💬 الدعم
- خادم الدعم على Discord
- التطوير المخصص: [email protected] (حلول مصممة خصيصًا للفرق والمنظمات)