انتقل إلى المحتوى الرئيسي

نظرة عامة

Runtime Text To Speech Documentation

Runtime Text To Speech هو إضافة تُمكّن من توليف الكلام من النص في الوقت الفعلي، دون اتصال بالإنترنت، وعبر المنصات. تدعم 45 لغة، وأكثر من 900 صوت، و 140+ جودة صوتية – وتضم الآن Kokoro 🚀، وهي عائلة نماذج صوتية مفتوحة المصدر متطورة ذات إخراج بجودة الاستوديو. الإضافة سريعة، خفيفة الوزن، ومثالية للألعاب، والتطبيقات، والمشاريع التي تتطلب كلامًا طبيعيًا.

حاليًا، تدعم الإضافة المنصات التالية: Windows، Linux، Mac، Android (بما في ذلك Meta Quest)، و iOS.

📹 شاهدها في العمل
شاهد عرض YouTube التجريبي أو اختبر عينات صوتية عامة على Piper Samples.

Kokoro

تدعم الإضافة أيضًا نماذج صوت Kokoro (بما في ذلك Kokoro v1.1) - وهي معماريات TTS مفتوحة المصدر عالية الجودة نُشرت مؤخرًا على Hugging Face.

  • 152 نموذجًا عالي الجودة عبر 8 لغات:
    🇺🇸 الإنجليزية (الولايات المتحدة) • 🇬🇧 الإنجليزية (المملكة المتحدة) • 🇨🇳 الصينية المبسطة • 🇪🇸 الإسبانية • 🇧🇷 البرتغالية • 🇮🇳 الهندية • 🇫🇷 الفرنسية • 🇮🇹 الإيطالية
  • معاينة مباشرة متاحة: اختبر أصوات Kokoro
لماذا Kokoro؟

نماذج صوت Kokoro هي حاليًا من بين أعلى حلول TTS مفتوحة المصدر جودة المتاحة اليوم.

الميزات الرئيسية

  • توليف كامل دون اتصال: لا حاجة لاتصال بالإنترنت
  • أنواع توليف متعددة:
    • التوليف العادي: توليد الصوت الكامل للنص بأكمله
    • التوليف المتدفق: معالجة مقاطع الصوت في الوقت الفعلي أثناء توليدها
  • دعم الإلغاء: إيقاف عمليات التوليف الجارية في أي وقت
  • التوافق عبر المنصات: يعمل على جميع المنصات الرئيسية
  • دعم Blueprint و C++: وصول كامل إلى API في كلا البيئتين

التثبيت

للبدء، قم بتثبيت نماذج الأصوات عبر إعدادات الإضافة في أول تشغيل. بعد التثبيت، يمكنك البدء في استخدام الإضافة في مشروعك. للحصول على تعليمات مفصلة، راجع صفحة كيفية استخدام الإضافة.

تفاصيل الإضافة

توفر هذه الإضافة توليف الكلام من النص في الوقت الفعلي باستخدام مكتبات Piper، و Kokoro، و ONNX Runtime. تسمح لك الإضافة بتنزيل وإدارة نماذج صوتية متعددة عبر المحرر، والتي يمكن بعد ذلك تضمينها مع مشروعك.

تتكون الوظيفة الأساسية من معالجة إدخال النص واختيار نموذج الصوت للتوليف. بعض نماذج الأصوات تدعم متحدثين متعددين - على سبيل المثال، English LibriTTS يتضمن أكثر من 900 متحدث مختلف، German Thorsten Emotional به 7 متحدثين، إلخ.

الإخراج هو بيانات صوت PCM (بتنسيق float) مع معدل العينات وعدد القنوات المقابل. يمكن معالجة هذه البيانات بطريقتين:

  • التوليف العادي: استقبال بيانات الصوت الكاملة عند انتهاء التوليف
  • التوليف المتدفق: استقبال بيانات الصوت على شكل مقاطع أثناء توليدها، مما يسمح بالمعالجة في الوقت الفعلي

يتطلب تحويل بيانات الصوت الخام هذه إلى موجة صوتية قابلة للتشغيل عادةً إضافة Runtime Audio Importer، والتي توفر إمكانيات تشغيل عادية ومتدفقة.

موارد إضافية