Genel Bakış

Runtime Text To Speech, gerçek zamanlı, çevrimdışı ve platformlar arası metin okuma (text-to-speech) sentezi sağlayan bir eklentidir. 51 dil, 2800'den fazla ses, 75 ses kalitesi desteği sunar ve stüdyo kalitesinde çıktı üreten açık kaynaklı bir ses modeli ailesi olan Kokoro'yu da içerir. Eklenti hızlı, hafiftir ve doğal konuşma gerektiren oyunlar, uygulamalar ve projeler için idealdir.

Şu anda eklenti şu platformları desteklemektedir: Windows, Linux, Mac, Android (Meta Quest dâhil) ve iOS.

📹 Eylemde Görün
YouTube Demosu'nu izleyin (eski video) veya Piper Örnekleri sayfasında genel ses örneklerini test edin.

Kokoro

Eklenti ayrıca yakın zamanda Hugging Face'te yayınlanan yüksek kaliteli açık kaynaklı TTS mimarileri olan Kokoro ses modellerini (Kokoro v1.1 dâhil) destekler.

8 dilde 151 yüksek kaliteli model:
🇺🇸 İngilizce (ABD) • 🇬🇧 İngilizce (BK) • 🇨🇳 Basitleştirilmiş Çince • 🇪🇸 İspanyolca • 🇧🇷 Portekizce • 🇮🇳 Hintçe • 🇫🇷 Fransızca • 🇮🇹 İtalyanca
Canlı ön izleme mevcut: Kokoro Seslerini Test Edin

Neden Kokoro?

Kokoro ses modelleri şu anda günümüzdeki en yüksek kaliteli açık kaynaklı TTS çözümleri arasında yer almaktadır.

Temel Özellikler

Tamamen çevrimdışı sentez: İnternet bağlantısı gerekmez
Birden çok sentez modu:
- Normal sentez: Metnin tamamı için eksiksiz ses oluşturur
- Akış sentezi: Ses parçalarını oluşturuldukları anda gerçek zamanlı olarak işler
İptal desteği: Devam eden sentez işlemlerini herhangi bir zamanda durdurma
Platformlar arası uyumluluk: Tüm büyük platformlarda çalışır
Blueprint ve C++ desteği: Her iki ortamda tam API erişimi

Kurulum

Başlamak için, ilk çalıştırmada eklenti ayarları üzerinden ses modellerini yükleyin. Kurulumdan sonra eklentiyi projenizde kullanmaya başlayabilirsiniz. Ayrıntılı talimatlar için Eklenti nasıl kullanılır sayfasına bakın.

Eklenti Detayları

Bu eklenti, Piper, Kokoro ve ONNX Runtime kütüphanelerini kullanarak gerçek zamanlı metin okuma sentezi sağlar. Eklenti, editör aracılığıyla birden fazla ses modelini indirip yönetmenize olanak tanır; bu modeller daha sonra projenizle birlikte paketlenebilir.

Temel işlevsellik, metin girdisi işleme ve sentez için ses modeli seçiminden oluşur. Bazı ses modelleri birden fazla konuşmacıyı destekler; örneğin, English LibriTTS 900'den fazla farklı konuşmacı içerir, German Thorsten Emotional 7 konuşmacıya sahiptir, vb.

Çıktı, ilgili örnekleme hızı ve kanal sayısına sahip PCM ses verisidir (float formatında). Bu veri iki şekilde işlenebilir:

Normal sentez: Sentez tamamlandığında eksiksiz ses verisini alın
Akış sentezi: Ses verisini oluşturuldukça parçalar halinde alın, gerçek zamanlı işlemeye olanak tanır

Bu ham ses verisini oynatılabilir bir ses dalgasına dönüştürmek genellikle hem normal hem de akış oynatma yetenekleri sağlayan Runtime Audio Importer eklentisini gerektirir.

Ek Kaynaklar

Fab'da edinin
Ürün web sitesi
Demoyu indir (Windows)
Video eğitimi (eski video)
Eklenti Desteği ve Özel Geliştirme: [email protected] (ekipler ve kuruluşlar için özel çözümler)

Join our Discord

online · support

Kokoro​

Temel Özellikler​

Kurulum​

Eklenti Detayları​

Ek Kaynaklar​

Kokoro

Temel Özellikler

Kurulum

Eklenti Detayları

Ek Kaynaklar