Ana içeriğe geç

Genel Bakış

Runtime Text To Speech Dokümantasyonu

Runtime Text To Speech, gerçek zamanlı, çevrimdışı ve çapraz platform metinden sese sentezleme sağlayan bir eklentidir. 41 dili, 900'den fazla sesi ve 190+ ses kalitesini destekler – şimdi stüdyo kalitesinde çıktı sunan, en son açık kaynaklı ses modeli ailesi olan Kokoro 🚀 ile birlikte. Eklenti hızlı, hafif ve doğal seslendirme gerektiren oyunlar, uygulamalar ve projeler için idealdir.

Şu anda eklenti şu platformları desteklemektedir: Windows, Linux, Mac, Android (Meta Quest dahil) ve iOS.

📹 Uygulamada Görün
YouTube Demo'yu izleyin veya genel ses örneklerini Piper Samples'da test edin.

Kokoro

Eklenti artık, Hugging Face'te yakın zamanda yayınlanan yüksek kaliteli açık kaynaklı TTS mimarileri olan Kokoro ses modellerini uygulamaktadır.

  • 8 dilde 49 yüksek kaliteli model:
    🇺🇸 İngilizce (ABD) • 🇬🇧 İngilizce (BK) • 🇨🇳 Basitleştirilmiş Çince • 🇪🇸 İspanyolca • 🇧🇷 Portekizce • 🇮🇳 Hintçe • 🇫🇷 Fransızca • 🇮🇹 İtalyanca
  • Canlı önizleme mevcut: Kokoro Seslerini Test Et
Neden Kokoro?

Kokoro ses modelleri, şu anda mevcut olan en yüksek kaliteli açık kaynaklı TTS çözümleri arasındadır.

Temel Özellikler

  • Tam çevrimdışı sentez: İnternet bağlantısı gerekmez
  • Çoklu sentez modları:
    • Düzenli sentez: Tüm metin için tam ses oluştur
    • Akış sentezi: Ses parçalarını gerçek zamanlı olarak oluşturuldukça işle
  • İptal desteği: Devam eden sentez işlemlerini istediğiniz zaman kesintiye uğratın
  • Çapraz platform uyumluluğu: Tüm ana platformlarda çalışır
  • Blueprint ve C++ desteği: Her iki ortamda da tam API erişimi

Kurulum

Başlamak için, ilk çalıştırmada eklenti ayarları üzerinden ses modellerini yükleyin. Kurulumdan sonra, eklentiyi projenizde kullanmaya başlayabilirsiniz. Detaylı talimatlar için Eklentiyi nasıl kullanırım sayfasına bakın.

Eklenti Detayları

Bu eklenti, Piper, Kokoro ve ONNX Runtime kütüphanelerini kullanarak gerçek zamanlı metinden sese sentezleme sağlar. Eklenti, editör üzerinden birden fazla ses modelini indirmenize ve yönetmenize olanak tanır; bu modeller daha sonra projenizle paketlenebilir.

Temel işlevsellik, metin girişi işleme ve sentez için ses modeli seçiminden oluşur. Bazı ses modelleri birden fazla konuşmacıyı destekler – örneğin, İngilizce LibriTTS 900'den fazla farklı konuşmacı içerir, Almanca Thorsten Emotional 7 konuşmacıya sahiptir, vb. Çıktı, PCM ses verisidir (float formatında) ve karşılık gelen örnekleme hızı ve kanal sayısına sahiptir. Bu veri iki şekilde işlenebilir:

  • Düzenli sentez: Sentez tamamlandığında tam ses verisini alın
  • Akışlı sentez: Gerçek zamanlı işleme imkanı sağlayan, üretildikçe parçalar halinde ses verisini alın

Bu ham ses verisini çalınabilir bir ses dalgasına dönüştürmek genellikle Runtime Audio Importer eklentisini gerektirir, bu eklenti hem düzenli hem de akışlı çalma yetenekleri sağlar.

Ek Kaynaklar