Przejdź do głównej zawartości

Przegląd

Runtime Text To Speech Documentation

Runtime Text To Speech to wtyczka umożliwiająca syntezę mowy z tekstu w czasie rzeczywistym, działającą offline i wieloplatformowo. Obsługuje 41 języków, ponad 900 głosów i 190+ jakości głosu – teraz z funkcją Kokoro 🚀, nowoczesną rodziną otwartych modeli głosowych o jakości studyjnej. Wtyczka jest szybka, lekka i idealna do gier, aplikacji oraz projektów wymagających naturalnie brzmiącej mowy.

Obecnie wtyczka obsługuje następujące platformy: Windows, Linux, Mac, Android (w tym Meta Quest) oraz iOS.

📹 Zobacz to w akcji
Obejrzyj demo na YouTube lub przetestuj ogólne próbki głosu na Piper Samples.

Kokoro

Wtyczka implementuje teraz modele głosowe Kokoro - wysokiej jakości otwarte architektury TTS opublikowane niedawno na Hugging Face.

  • 49 wysokiej jakości modeli w 8 językach:
    🇺🇸 Angielski (US) • 🇬🇧 Angielski (UK) • 🇨🇳 Chiński uproszczony • 🇪🇸 Hiszpański • 🇧🇷 Portugalski • 🇮🇳 Hindi • 🇫🇷 Francuski • 🇮🇹 Włoski
  • Dostępny podgląd na żywo: Przetestuj głosy Kokoro
Dlaczego Kokoro?

Modele głosowe Kokoro są obecnie jednymi z najwyższej jakości otwartych rozwiązań TTS dostępnych obecnie.

Kluczowe funkcje

  • Pełna synteza offline: Nie wymaga połączenia z internetem
  • Wiele trybów syntezy:
    • Standardowa synteza: Generuj pełny dźwięk dla całego tekstu
    • Synteza strumieniowa: Przetwarzaj fragmenty dźwięku w czasie rzeczywistym w miarę ich generowania
  • Obsługa anulowania: Przerwij trwające operacje syntezy w dowolnym momencie
  • Kompatybilność wieloplatformowa: Działa na wszystkich głównych platformach
  • Obsługa Blueprint i C++: Pełny dostęp do API w obu środowiskach

Instalacja

Aby rozpocząć, zainstaluj modele głosowe za pomocą ustawień wtyczki przy pierwszym uruchomieniu. Po instalacji możesz zacząć używać wtyczki w swoim projekcie. Szczegółowe instrukcje znajdują się na stronie Jak używać wtyczki.

Szczegóły wtyczki

Ta wtyczka zapewnia syntezę mowy z tekstu w czasie rzeczywistym przy użyciu bibliotek Piper, Kokoro i ONNX Runtime. Wtyczka pozwala na pobieranie i zarządzanie wieloma modelami głosowymi za pomocą edytora, które następnie mogą być dołączone do twojego projektu.

Podstawowa funkcjonalność składa się z przetwarzania tekstu wejściowego i wyboru modelu głosowego do syntezy. Niektóre modele głosowe obsługują wielu mówców – na przykład English LibriTTS zawiera ponad 900 różnych mówców, niemiecki Thorsten Emotional ma 7 mówców itp. Wyjście to dane audio PCM (w formacie float) z odpowiadającą im częstotliwością próbkowania i liczbą kanałów. Te dane mogą być przetwarzane na dwa sposoby:

  • Standardowa synteza: Odbierz pełne dane audio po zakończeniu syntezy
  • Synteza strumieniowa: Odbieraj dane audio w porcjach w miarę ich generowania, umożliwiając przetwarzanie w czasie rzeczywistym

Konwersja tych surowych danych audio na odtwarzalną falę dźwiękową zazwyczaj wymaga wtyczki Runtime Audio Importer, która zapewnia zarówno standardowe, jak i strumieniowe możliwości odtwarzania.

Dodatkowe zasoby