انتقل إلى المحتوى الرئيسي

نظرة عامة

Runtime Text To Speech Documentation

Runtime Text To Speech هو إضافة تُمكّن من توليف الكلام من النص في الوقت الفعلي، دون اتصال بالإنترنت، وعبر المنصات. تدعم 44 لغة، وأكثر من 900 صوت، و200+ جودة صوتية – وتضم الآن Kokoro 🚀، وهي عائلة نماذج صوتية مفتوحة المصدر متطورة ذات إخراج بجودة الاستوديو. الإضافة سريعة، خفيفة الوزن، ومثالية للألعاب، والتطبيقات، والمشاريع التي تتطلب كلامًا طبيعيًا.

حاليًا، تدعم الإضافة المنصات التالية: Windows، Linux، Mac، Android (بما في ذلك Meta Quest)، وiOS.

📹 شاهدها في العمل
شاهد عرض يوتيوب التجريبي أو اختبر عينات صوتية عامة على Piper Samples.

Kokoro

تدعم الإضافة أيضًا نماذج صوت Kokoro - وهي معماريات توليف كلام من نص مفتوحة المصدر عالية الجودة نُشرت مؤخرًا على Hugging Face.

  • 49 نموذجًا عالي الجودة عبر 8 لغات:
    🇺🇸 الإنجليزية (الولايات المتحدة) • 🇬🇧 الإنجليزية (المملكة المتحدة) • 🇨🇳 الصينية المبسطة • 🇪🇸 الإسبانية • 🇧🇷 البرتغالية • 🇮🇳 الهندية • 🇫🇷 الفرنسية • 🇮🇹 الإيطالية
  • معاينة مباشرة متاحة: اختبر أصوات Kokoro
لماذا Kokoro؟

نماذج صوت Kokoro هي حاليًا من بين أعلى حلول توليف الكلام من نص مفتوحة المصدر جودة المتاحة اليوم.

الميزات الرئيسية

  • توليف كامل دون اتصال: لا يتطلب اتصالاً بالإنترنت
  • وضعيات توليف متعددة:
    • التوليف العادي: توليد الصوت الكامل للنص بأكمله
    • التوليف المتدفق: معالجة مقاطع الصوت في الوقت الفعلي أثناء توليدها
  • دعم الإلغاء: مقاطعة عمليات التوليف الجارية في أي وقت
  • التوافق عبر المنصات: يعمل على جميع المنصات الرئيسية
  • دعم Blueprint و C++: وصول كامل إلى واجهة برمجة التطبيقات في كلا البيئتين

التثبيت

للبدء، قم بتثبيت نماذج الصوت عبر إعدادات الإضافة عند التشغيل الأول. بعد التثبيت، يمكنك البدء في استخدام الإضافة في مشروعك. للحصول على تعليمات مفصلة، راجع صفحة كيفية استخدام الإضافة.

تفاصيل الإضافة

توفر هذه الإضافة توليف الكلام من النص في الوقت الفعلي باستخدام مكتبات Piper، وKokoro، وONNX Runtime. تسمح لك الإضافة بتنزيل وإدارة نماذج صوت متعددة عبر المحرر، والتي يمكن بعد ذلك تضمينها مع مشروعك.

تتكون الوظيفة الأساسية من معالجة إدخال النص واختيار نموذج الصوت للتوليف. بعض نماذج الصوت تدعم متحدثين متعددين - على سبيل المثال، English LibriTTS يتضمن أكثر من 900 متحدث مختلف، German Thorsten Emotional لديه 7 متحدثين، إلخ. الإخراج هو بيانات صوتية بتنسيق PCM (بتنسيق float) مع معدل العينات وعدد القنوات المقابل. يمكن معالجة هذه البيانات بطريقتين:

  • التوليد العادي: استقبال بيانات الصوت الكاملة عند انتهاء التوليد
  • التوليد بالدفق (Streaming): استقبال بيانات الصوت على شكل أجزاء (chunks) أثناء توليدها، مما يسمح بالمعالجة في الوقت الفعلي

تحويل بيانات الصوت الخام هذه إلى موجة صوتية قابلة للتشغيل يتطلب عادةً إضافة Runtime Audio Importer، والتي توفر إمكانيات التشغيل العادي والتشغيل بالدفق.

موارد إضافية