انتقل إلى المحتوى الرئيسي

نظرة عامة

Runtime Text To Speech Documentation

Runtime Text To Speech هو مكون إضافي يتيح تحويل النص إلى كلام بشكل فوري، دون اتصال بالإنترنت، وعبر منصات متعددة. وهو يدعم 51 لغة، وأكثر من 2800 صوت، و75 جودة صوت، ويشمل الآن Kokoro، وهي عائلة نماذج صوتية مفتوحة المصدر بجودة استوديو. المكون الإضافي سريع وخفيف ومثالي للألعاب والتطبيقات والمشاريع التي تحتاج إلى كلام طبيعي.

يدعم المكون الإضافي حاليًا المنصات التالية: Windows، وLinux، وMac، وAndroid (بما في ذلك Meta Quest)، وiOS.

📹 شاهده أثناء التشغيل
شاهد العرض التوضيحي على YouTube (فيديو أقدم) أو جرّب عينات الأصوات العامة على Piper Samples.

Kokoro

يدعم المكون الإضافي أيضًا نماذج صوت Kokoro (بما في ذلك Kokoro v1.1) - معماريات TTS عالية الجودة ومفتوحة المصدر نُشرت مؤخرًا على Hugging Face.

  • 151 نموذجًا عالي الجودة عبر 8 لغات:
    🇺🇸 الإنجليزية (الولايات المتحدة) • 🇬🇧 الإنجليزية (المملكة المتحدة) • 🇨🇳 الصينية المبسطة • 🇪🇸 الإسبانية • 🇧🇷 البرتغالية • 🇮🇳 الهندية • 🇫🇷 الفرنسية • 🇮🇹 الإيطالية
  • معاينة مباشرة متاحة: جرب أصوات Kokoro
لماذا Kokoro؟

تُعتبر نماذج صوت Kokoro حاليًا من بين أعلى حلول TTS مفتوحة المصدر جودة المتاحة اليوم.

الميزات الرئيسية

  • تركيب صوتي كامل دون اتصال: لا حاجة للاتصال بالإنترنت
  • أوضاع تركيب متعددة:
    • التركيب العادي: إنشاء بيانات صوتية كاملة للنص بالكامل
    • التركيب بالتدفق: معالجة مقاطع الصوت في الوقت الفعلي أثناء إنشائها
  • دعم الإلغاء: إيقاف عمليات التركيب الجارية في أي وقت
  • توافق عبر المنصات: يعمل على جميع المنصات الرئيسية
  • دعم Blueprint و C++: وصول كامل إلى واجهة برمجة التطبيقات في كلتا البيئتين

التثبيت

للبدء، قم بتثبيت نماذج الصوت عبر إعدادات المكون الإضافي في أول تشغيل. بعد التثبيت، يمكنك البدء باستخدام المكون الإضافي في مشروعك. للحصول على تعليمات مفصلة، راجع صفحة كيفية استخدام المكون الإضافي.

تفاصيل المكون الإضافي

يوفر هذا المكون الإضافي تركيبًا فوريًا للنص إلى كلام باستخدام مكتبات Piper وKokoro وONNX Runtime. يتيح لك المكون الإضافي تنزيل وإدارة نماذج صوت متعددة عبر المحرر، والتي يمكن بعد ذلك تعبئتها مع مشروعك.

تتمثل الوظائف الأساسية في معالجة النص المُدخل واختيار نموذج الصوت للتركيب. تدعم بعض نماذج الصوت عدة متحدثين - على سبيل المثال، English LibriTTS يتضمن أكثر من 900 متحدث مختلف، وGerman Thorsten Emotional لديه 7 متحدثين، إلخ.

المخرج هو بيانات صوتية PCM (بتنسيق float) مع معدل عينات وعدد قنوات مطابق. يمكن معالجة هذه البيانات بطريقتين:

  • التركيب العادي: استلام البيانات الصوتية الكاملة عند اكتمال التركيب
  • التركيب بالتدفق: استلام البيانات الصوتية على شكل مقاطع أثناء إنشائها، مما يسمح بالمعالجة الفورية

عادةً ما يتطلب تحويل هذه البيانات الصوتية الخام إلى موجة صوت قابلة للتشغيل مكون Runtime Audio Importer الإضافي، الذي يوفر قدرات تشغيل عادية وتدفقية.

موارد إضافية

Join our Discord
online · support