انتقل إلى المحتوى الرئيسي

نظرة عامة

Runtime Text To Speech Documentation

Runtime Text To Speech هو مكوّن إضافي يمكّن توليف الكلام من النص في الوقت الفعلي، دون اتصال بالإنترنت وعبر منصات متعددة. يدعم 41 لغة، أكثر من 900 صوت، و190+ جودة صوت - ويضم الآن Kokoro 🚀، عائلة نماذج الأصوات مفتوحة المصدر المتطورة ذات جودة استوديو. المكوّن الإضافي سريع، خفيف الوزن، ومثالي للألعاب، التطبيقات، والمشاريع التي تتطلب كلامًا طبيعيًا.

يدعم المكوّن الإضافي حاليًا المنصات التالية: Windows، Linux، Mac، Android (بما في ذلك Meta Quest)، وiOS.

📹 شاهدوه في العمل
شاهد عرض YouTube التوضيحي أو اختبر عينات أصوات عامة في Piper Samples.

Kokoro

يضم المكوّن الإضافي الآن نماذج أصوات Kokoro - وهي بنيات TTS مفتوحة المصدر عالية الجودة نُشرت مؤخرًا على Hugging Face.

  • 49 نموذجًا عالي الجودة عبر 8 لغات:
    🇺🇸 الإنجليزية (الولايات المتحدة) • 🇬🇧 الإنجليزية (المملكة المتحدة) • 🇨🇳 الصينية المبسطة • 🇪🇸 الإسبانية • 🇧🇷 البرتغالية • 🇮🇳 الهندية • 🇫🇷 الفرنسية • 🇮🇹 الإيطالية
  • معاينة حية متاحة: اختبر أصوات Kokoro
لماذا Kokoro؟

تعد نماذج أصوات Kokoro حاليًا من بين أعلى حلول TTS مفتوحة المصدر جودة المتاحة اليوم.

الميزات الرئيسية

  • توليف كامل دون اتصال: لا حاجة لاتصال بالإنترنت
  • وضعات توليف متعددة:
    • التوليف العادي: إنشاء الصوت الكامل للنص بأكمله
    • التوليف المتدفق: معالجة مقاطع الصوت في الوقت الفعلي أثناء توليدها
  • دعم الإلغاء: إيقاف عمليات التوليف الجارية في أي وقت
  • التوافق عبر المنصات: يعمل على جميع المنصات الرئيسية
  • دعم Blueprint و++C: وصول كامل إلى API في كلا البيئتين

التثبيت

للبدء، قم بتثبيت نماذج الأصوات عبر إعدادات المكوّن الإضافي عند التشغيل الأول. بعد التثبيت، يمكنك البدء في استخدام المكوّن الإضافي في مشروعك. للتعليمات التفصيلية، راجع صفحة كيفية استخدام المكوّن الإضافي.

تفاصيل المكوّن الإضافي

يوفر هذا المكوّن الإضافي توليف الكلام من النص في الوقت الفعلي باستخدام مكتبات Piper، Kokoro، وONNX Runtime. يسمح لك المكوّن الإضافي بتنزيل وإدارة نماذج أصوات متعددة عبر المحرر، والتي يمكن بعد ذلك تضمينها مع مشروعك.

تتكون الوظيفة الأساسية من معالجة إدخال النص واختيار نموذج الصوت للتوليف. بعض نماذج الأصوات تدعم متحدثين متعددين - على سبيل المثال، English LibriTTS يتضمن أكثر من 900 متحدث مختلف، German Thorsten Emotional لديه 7 متحدثين، إلخ.

الخرج هو بيانات صوت PCM (بتنسيق float) مع معدل عينات وعدد قنوات مقابلة. يمكن معالجة هذه البيانات بطريقتين:

  • التوليف العادي: استقبال بيانات الصوت الكاملة عند انتهاء التوليف
  • التوليف المتدفق: استقبال بيانات الصوت على شكل مقاطع أثناء توليدها، مما يسمح بالمعالجة في الوقت الفعلي

تحويل بيانات الصوت الخام هذه إلى موجة صوت قابلة للتشغيل يتطلب عادةً مكوّن Runtime Audio Importer الإضافي، الذي يوفر إمكانيات تشغيل عادية ومتدفقة.

موارد إضافية