نظرة عامة
Runtime MetaHuman Lip Sync هو مكون إضافي يمكّن مزامنة الشفاه في الوقت الفعلي، دون اتصال بالإنترنت وعبر المنصات لكل من شخصيات MetaHuman والشخصيات المخصصة. يسمح لك برسم حركة شفاه الشخصية استجابةً لمدخلات صوتية من مصادر متنوعة، بما في ذلك:
- مدخل الميكروفون عبر موجة الصوت القابلة للتسجيل الخاصة بـ Runtime Audio Importer
- الكلام المُركّب من Runtime Text To Speech أو Runtime AI Chatbot Integrator
- أي بيانات صوتية بتنسيق PCM عائم (مصفوفة من عينات النقطة العائمة)
يولد المكون الإضافي داخليًا visemes (تمثيلات بصرية للفونيمات) بناءً على المدخل الصوتي. نظرًا لأنه يعمل مباشرة مع البيانات الصوتية بدلاً من النص، يدعم المكون الإضافي المدخلات متعددة اللغات بما في ذلك على سبيل المثال لا الحصر الإنجليزية، الإسبانية، الفرنسية، الألمانية، اليابانية، الصينية، الكورية، الروسية، الإيطالية، البرتغالية، العربية، والهندية. أي لغة مدعومة حرفيًا حيث يتم إنشاء مزامنة الشفاه من فونيمات الصوت بدلاً من معالجة نصية خاصة بلغة معينة.
ينتج النموذج القياسي 14 viseme وينفذ رسوم متحركة لمزامنة الشفاه باستخدام أصل وضعية مسبقة التعريف. في المقابل، تولد النماذج الواقعية (الحصرية لشخصيات MetaHuman) 81 تغييرًا في التحكم الوجهي دون الاعتماد على أصل وضعية مسبقة التعريف، مما يؤدي إلى رسوم متحركة وجهية أكثر واقعية بشكل ملحوظ.
توافق الشخصية
على الرغم من اسمه، يعمل Runtime MetaHuman Lip Sync مع مجموعة واسعة من الشخصيات تتجاوز MetaHumans فقط:
أنظمة الشخصيات التجارية الشهيرة
- شخصيات Daz Genesis 8/9
- شخصيات Reallusion Character Creator 3/4 (CC3/CC4)
- شخصيات Mixamo
- الأفاتار الخاصة بـ ReadyPlayerMe
دعم معايير الرسوم المتحركة
- أنظمة blendshape القائمة على FACS
- معيار blendshape الخاص بـ Apple ARKit
- مجموعات فونيم Preston Blair
- أنظمة فونيم 3ds Max
- أي شخصية تحتوي على أهداف تشكيل مخصصة للتعبيرات الوجهية
للحصول على تعليمات مفصلة حول استخدام المكون الإضافي مع الشخصيات غير MetaHuman، راجع دليل إعداد الشخصية المخصصة.
معاينة الرسوم المتحركة
تحقق من هذه الرسوم المتحركة القصيرة لترى جودة رسوم متحركة لمزامنة الشفاه التي ينتجها المكون الإضافي عبر أنواع الشخصيات والنماذج المختلفة:




الميزات الرئيسية
- مزامنة شفاه في الوقت الفعلي من مدخل الميكروفون
- دعم معالجة الصوت دون اتصال بالإنترنت
- توافق عبر المنصات مع دعم منصة محدد للنموذج
- دعم أنظمة الشخصيات المتعددة ومعايير الرسوم المتحركة
- تعيين مرن للوحدات الصوتية المرئية للشخصيات المخصصة
- دعم عالمي للغات - يعمل مع أي لغة منطوقة من خلال تحليل الصوت
- رسوم متحركة للوجه واعية بالمزاج لتحسين التعبير
- أنواع مخرجات قابلة للتكوين (الوجه الكامل أو عناصر تحكم الفم فقط)
نماذج مزامنة الشفاه
تقدم الإضافة نماذج متعددة لمزامنة الشفاه لتلائم احتياجات المشروع المختلفة:
- النموذج القياسي
- النموذج الواقعي
- النموذج الواقعي المدعوم بالمزاج
يوفر نموذج مزامنة الشفاه القياسي أداءً فعالاً عبر المنصات مع توافق واسع للشخصيات:
- يعمل مع MetaHumans وجميع أنواع الشخصيات المخصصة
- مُحسّن لأداء الوقت الفعلي
- متطلبات موارد أقل
- توافق كامل مع TTS المحلي (إضافة Runtime Text To Speech)
- دعم المنصة: Windows, Android, المنصات القائمة على Android (بما في ذلك Meta Quest)
- ثلاث مستويات تحسين: الأصلي، شبه المُحسّن، والمُحسّن للغاية
لاستخدام النموذج القياسي، تحتاج إلى تثبيت إضافة تمديد إضافية. راجع قسم المتطلبات الأساسية لتعليمات التثبيت.
يقدم نموذج مزامنة الشفاه الواقعي دقة بصرية محسنة مخصصة بشكل خاص لشخصيات MetaHuman:
- حصري لـ MetaHuman مع رسوم متحركة متقدمة للوجه (81 عنصر تحكم في الوجه)
- جودة بصرية أعلى مع حركات فم أكثر طبيعية
- متطلبات أداء أعلى قليلاً
- دعم محدود لـ TTS المحلي (يُوصى بخدمات TTS خارجية)
- مثالي للتجارب السينمائية وتفاعلات الشخصية عن قرب
- دعم المنصة: Windows, Mac, iOS, Linux
- ثلاث مستويات تحسين: الأصلي، شبه المُحسّن، والمُحسّن للغاية
النموذج الواقعي مدرج في الإضافة الرئيسية ولا يتطلب أي امتدادات إضافية للاستخدام.
يوفر النموذج الواقعي المدعوم بالمزاج رسومًا متحركة للوجه واعية بالعاطفة لشخصيات MetaHuman:
- حصري لـ MetaHuman مع رسوم متحركة للوجه تستجيب للمزاج
- 12 نوعًا مختلفًا من المزاج (محايد، سعيد، حزين، واثق، إلخ)
- شدة مزاج قابلة للتكوين (من 0.0 إلى 1.0)
- توقيت نظرية قابلة للتعديل لتحسين المزامنة (من 20 مللي ثانية إلى 200 مللي ثانية)
- أنواع مخرجات قابلة للتحديد: عناصر تحكم الوجه الكامل أو الفم فقط
- معالجة صوتية متدفقة للتطبيقات في الوقت الفعلي
- دعم المنصة: Windows, Mac, iOS, Linux
الـ نموذج مُمكّن بالمزاج* يتضمن ميزات متقدمة مثل توقيت التطلع القابل للتكوين والتحكم الانتقائي في المخرجات، مما يجعله مثاليًا للتطبيقات التي تتطلب التحكم في التعبير العاطفي.
يمكنك اختيار النموذج المناسب بناءً على متطلبات مشروعك من حيث الأداء، والتوافق مع الشخصية، والجودة البصرية، ومنصة الهدف، واحتياجات الميزات.
بينما تدعم جميع النماذج طرقًا مختلفة لإدخال الصوت، فإن النموذج الواقعي العادي لديه توافق محدود مع TTS المحلي بسبب تعارضات وقت تشغيل ONNX. ومع ذلك، فإن النموذج الواقعي المُمكّن بالمزاج متوافق بالكامل مع TTS المحلي. لوظيفة تحويل النص إلى كلام:
- النموذج القياسي: متوافق مع جميع خيارات TTS (المحلية والخارجية)
- النموذج الواقعي: يُوصى بخدمات TTS الخارجية (OpenAI, ElevenLabs)
- النموذج الواقعي المُمكّن بالمزاج: متوافق مع جميع خيارات TTS (المحلية والخارجية)
كيف يعمل
يقوم البرنامج المساعد بمعالجة إدخال الصوت بالطريقة التالية:
- يتم استقبال بيانات الصوت بتنسيق PCM عائم مع قنوات ومعدل عينة محددين
- يعالج البرنامج المساعد الصوت لتوليد بيانات تحكم في الوجه أو visemes اعتمادًا على النموذج
- بالنسبة للنماذج المُمكّنة بالمزاج، يتم تطبيق السياق العاطفي على الرسوم المتحركة للوجه
- تقوم بيانات الرسوم المتحركة بتحريك تعابير وجه الشخصية في الوقت الفعلي
البدء السريع
إليك الإعداد الأساسي لتمكين مزامنة الشفاه على شخصيتك:
- لشخصيات MetaHuman، اتبع دليل الإعداد
- للشخصيات المخصصة، اتبع دليل إعداد الشخصية المخصصة
- اختر وقم بتكوين نموذج مزامنة الشفاه المفضل لديك
- قم بإعداد معالجة إدخال الصوت في مخططك الأزرق (Blueprint)
- قم بتوصيل عقدة مزامنة الشفاه المناسبة في مخطط الرسوم المتحركة الأزرق (Animation Blueprint)
- شغل الصوت وشاهد شخصيتك تتحدث بعاطفة!
موارد إضافية
📦 التحميلات والروابط
- احصل عليه على Fab
- موقع المنتج
- تحميل التجربة التوضيحية (Windows)
- تحميل ملفات مصدر التجربة التوضيحية (UE 5.6) – يتطلب هذا البرنامج المساعد + Runtime Audio Importer، اختياري: Text To Speech / AI Chatbot. يتطلب النموذج القياسي برنامجًا مساعدًا إضافيًا صغيرًا (انظر هنا)
🎥 دروس الفيديو
العرض التوضيحي المميز:
دروس النموذج الواقعي (عالية الجودة):
- مزامنة الشفاه عالية الجودة مع التحكم في المزاج و TTS المحلي ⭐ جديد
- مزامنة الشفاه عالية الجودة مع ElevenLabs و OpenAI TTS
- مزامنة الشفاه عالية الجودة مع الميكروفون المباشر
دروس النموذج القياسي:
- مزامنة الشفاه القياسية مع الميكروفون المباشر
- مزامنة الشفاه القياسية مع تحويل النص إلى كلام محلي
- مزامنة الشفاه القياسية مع ElevenLabs و OpenAI TTS
الإعداد العام:
💬 الدعم
- خادم الدعم على Discord
- التطوير المخصص: [email protected] (حلول مخصصة للفرق والمنظمات)