Genel Bakış

Runtime Text To Speech, gerçek zamanlı, çevrimdışı ve çapraz platform metinden sese sentezleme sağlayan bir eklentidir. 44 dil, 900'ün üzerinde ses ve 200+ ses kalitesini destekler – şimdi stüdyo kalitesinde çıktı sunan, son teknoloji açık kaynaklı bir ses modeli ailesi olan Kokoro 🚀'yu da içeriyor. Eklenti hızlı, hafif ve doğal seslendirme gerektiren oyunlar, uygulamalar ve projeler için idealdir.
Şu anda eklenti şu platformları desteklemektedir: Windows, Linux, Mac, Android (Meta Quest dahil) ve iOS.
📹 Harekete Geçirilmiş Halini İzleyin
YouTube Demosunu izleyin veya genel ses örneklerini Piper Örnekleri adresinde test edin.
Kokoro
Eklenti ayrıca, Hugging Face'te yakın zamanda yayınlanan yüksek kaliteli açık kaynaklı TTS mimarileri olan Kokoro ses modellerini de destekler.
- 8 dilde 49 yüksek kaliteli model:
🇺🇸 İngilizce (ABD) • 🇬🇧 İngilizce (BK) • 🇨🇳 Basitleştirilmiş Çince • 🇪🇸 İspanyolca • 🇧🇷 Portekizce • 🇮🇳 Hintçe • 🇫🇷 Fransızca • 🇮🇹 İtalyanca - Canlı önizleme mevcut: Kokoro Seslerini Test Edin
Kokoro ses modelleri, şu anda mevcut olan en yüksek kaliteli açık kaynaklı TTS çözümleri arasındadır.
Temel Özellikler
- Tamamen çevrimdışı sentez: İnternet bağlantısı gerekmez
- Çoklu sentez modları:
- Düzenli sentez: Tüm metin için tam ses oluştur
- Akış sentezi: Ses parçalarını oluşturuldukları gibi gerçek zamanlı olarak işle
- İptal desteği: Devam eden sentez işlemlerini istediğiniz zaman kesintiye uğratın
- Çapraz platform uyumluluğu: Tüm ana platformlarda çalışır
- Blueprint ve C++ desteği: Her iki ortamda da tam API erişimi
Kurulum
Başlamak için, ilk çalıştırmada eklenti ayarları üzerinden ses modellerini yükleyin. Kurulumdan sonra, eklentiyi projenizde kullanmaya başlayabilirsiniz. Ayrıntılı talimatlar için Eklentiyi nasıl kullanacağınız sayfasına bakın.
Eklenti Detayları
Bu eklenti, Piper, Kokoro ve ONNX Runtime kütüphanelerini kullanarak gerçek zamanlı metinden sese sentezleme sağlar. Eklenti, editör aracılığıyla birden fazla ses modelini indirmenize ve yönetmenize izin verir; bu modeller daha sonra projenizle birlikte paketlenebilir.
Temel işlevsellik, sentez için metin girişi işleme ve ses modeli seçiminden oluşur. Bazı ses modelleri birden fazla konuşmacıyı destekler - örneğin, İngilizce LibriTTS 900'ün üzerinde farklı konuşmacı içerir, Almanca Thorsten Emotional'ın 7 konuşmacısı vardır, vb. Çıktı, PCM ses verisidir (float formatında) ve karşılık gelen örnekleme hızı ve kanal sayısına sahiptir. Bu veri iki şekilde işlenebilir:
- Düzenli sentez: Sentez tamamlandığında tam ses verisini alın
- Akış sentezi: Ses verisini oluşturuldukça parçalar halinde alın, gerçek zamanlı işlemeye olanak tanır
Bu ham ses verisini çalınabilir bir ses dalgasına dönüştürmek genellikle hem düzenli hem de akış oynatma yetenekleri sağlayan Runtime Audio Importer eklentisini gerektirir.
Ek Kaynaklar
- Fab'da Edinin
- Ürün web sitesi
- Demo İndir (Windows)
- Discord destek sunucusu
- Video eğitimi
- Eklenti Desteği & Özel Geliştirme: [email protected] (takımlar ve organizasyonlar için özel çözümler)