Genel Bakış
Runtime Text To Speech, gerçek zamanlı, çevrimdışı ve çapraz platform metinden sese sentezleme sağlayan bir eklentidir. 41 dili, 900'den fazla sesi ve 190+ ses kalitesini destekler – şimdi stüdyo kalitesinde çıktı sunan, en son açık kaynaklı ses modeli ailesi olan Kokoro 🚀 ile birlikte. Eklenti hızlı, hafif ve doğal seslendirme gerektiren oyunlar, uygulamalar ve projeler için idealdir.
Şu anda eklenti şu platformları desteklemektedir: Windows, Linux, Mac, Android (Meta Quest dahil) ve iOS.
📹 Uygulamada Görün
YouTube Demo'yu izleyin veya genel ses örneklerini Piper Samples'da test edin.
Kokoro
Eklenti artık, Hugging Face'te yakın zamanda yayınlanan yüksek kaliteli açık kaynaklı TTS mimarileri olan Kokoro ses modellerini uygulamaktadır.
- 8 dilde 49 yüksek kaliteli model:
🇺🇸 İngilizce (ABD) • 🇬🇧 İngilizce (BK) • 🇨🇳 Basitleştirilmiş Çince • 🇪🇸 İspanyolca • 🇧🇷 Portekizce • 🇮🇳 Hintçe • 🇫🇷 Fransızca • 🇮🇹 İtalyanca - Canlı önizleme mevcut: Kokoro Seslerini Test Et
Kokoro ses modelleri, şu anda mevcut olan en yüksek kaliteli açık kaynaklı TTS çözümleri arasındadır.
Temel Özellikler
- Tam çevrimdışı sentez: İnternet bağlantısı gerekmez
- Çoklu sentez modları:
- Düzenli sentez: Tüm metin için tam ses oluştur
- Akış sentezi: Ses parçalarını gerçek zamanlı olarak oluşturuldukça işle
- İptal desteği: Devam eden sentez işlemlerini istediğiniz zaman kesintiye uğratın
- Çapraz platform uyumluluğu: Tüm ana platformlarda çalışır
- Blueprint ve C++ desteği: Her iki ortamda da tam API erişimi
Kurulum
Başlamak için, ilk çalıştırmada eklenti ayarları üzerinden ses modellerini yükleyin. Kurulumdan sonra, eklentiyi projenizde kullanmaya başlayabilirsiniz. Detaylı talimatlar için Eklentiyi nasıl kullanırım sayfasına bakın.
Eklenti Detayları
Bu eklenti, Piper, Kokoro ve ONNX Runtime kütüphanelerini kullanarak gerçek zamanlı metinden sese sentezleme sağlar. Eklenti, editör üzerinden birden fazla ses modelini indirmenize ve yönetmenize olanak tanır; bu modeller daha sonra projenizle paketlenebilir.
Temel işlevsellik, metin girişi işleme ve sentez için ses modeli seçiminden oluşur. Bazı ses modelleri birden fazla konuşmacıyı destekler – örneğin, İngilizce LibriTTS 900'den fazla farklı konuşmacı içerir, Almanca Thorsten Emotional 7 konuşmacıya sahiptir, vb. Çıktı, PCM ses verisidir (float formatında) ve karşılık gelen örnekleme hızı ve kanal sayısına sahiptir. Bu veri iki şekilde işlenebilir:
- Düzenli sentez: Sentez tamamlandığında tam ses verisini alın
- Akışlı sentez: Gerçek zamanlı işleme imkanı sağlayan, üretildikçe parçalar halinde ses verisini alın
Bu ham ses verisini çalınabilir bir ses dalgasına dönüştürmek genellikle Runtime Audio Importer eklentisini gerektirir, bu eklenti hem düzenli hem de akışlı çalma yetenekleri sağlar.
Ek Kaynaklar
- Fab'da edinin
- Ürün websitesi
- Demo İndir (Windows)
- Discord destek sunucusu
- Video eğitimi
- Özel Geliştirme: [email protected] (takımlar ve organizasyonlar için özelleştirilmiş çözümler)