Przejdź do głównej zawartości

Przegląd

Runtime Text To Speech Documentation

Runtime Text To Speech to wtyczka umożliwiająca syntezę mowy w czasie rzeczywistym, offline i na wielu platformach. Obsługuje 51 języków, ponad 2800 głosów i 75 jakości głosu, a teraz także Kokoro, otwartą rodzinę modeli głosowych o studyjnej jakości. Wtyczka jest szybka, lekka i idealna do gier, aplikacji oraz projektów wymagających naturalnie brzmiącej mowy.

Obecnie wtyczka obsługuje następujące platformy: Windows, Linux, Mac, Android (w tym Meta Quest) oraz iOS.

📹 Zobacz ją w akcji
Obejrzyj demo na YouTube (starszy film) lub przetestuj próbki głosów na Piper Samples.

Kokoro

Wtyczka obsługuje również modele głosowe Kokoro (w tym Kokoro v1.1) – wysokiej jakości otwarte architektury TTS opublikowane niedawno na Hugging Face.

  • 151 wysokiej jakości modeli w 8 językach:
    🇺🇸 angielski (USA) • 🇬🇧 angielski (UK) • 🇨🇳 chiński uproszczony • 🇪🇸 hiszpański • 🇧🇷 portugalski • 🇮🇳 hindi • 🇫🇷 francuski • 🇮🇹 włoski
  • Podgląd na żywo dostępny: Przetestuj głosy Kokoro
Dlaczego Kokoro?

Modele głosowe Kokoro należą obecnie do najwyższej jakości rozwiązań open-source do syntezy mowy dostępnych na rynku.

Kluczowe funkcje

  • Synteza całkowicie offline: nie wymaga połączenia z internetem
  • Wiele trybów syntezy:
    • Synteza standardowa: generowanie pełnego dźwięku dla całego tekstu
    • Synteza strumieniowa: przetwarzanie fragmentów audio w czasie rzeczywistym w miarę ich generowania
  • Obsługa anulowania: możliwość przerwania trwającej syntezy w dowolnym momencie
  • Kompatybilność międzplatformowa: działa na wszystkich głównych platformach
  • Wsparcie dla Blueprint i C++: pełny dostęp do API w obu środowiskach

Instalacja

Aby rozpocząć, zainstaluj modele głosowe w ustawieniach wtyczki podczas pierwszego uruchomienia. Po instalacji możesz zacząć korzystać z wtyczki w swoim projekcie. Szczegółowe instrukcje znajdziesz na stronie Jak korzystać z wtyczki.

Szczegóły wtyczki

Wtyczka zapewnia syntezę mowy w czasie rzeczywistym przy użyciu bibliotek Piper, Kokoro i ONNX Runtime. Pozwala pobierać wiele modeli głosowych i zarządzać nimi z poziomu edytora, a następnie spakować je razem z projektem.

Podstawowa funkcjonalność obejmuje przetwarzanie wprowadzonego tekstu i wybór modelu głosowego do syntezy. Niektóre modele głosowe obsługują wielu mówców – na przykład English LibriTTS zawiera ponad 900 różnych mówców, niemiecki Thorsten Emotional ma 7 mówców itp.

Wynikiem są dane audio PCM (w formacie float) z odpowiadającą częstotliwością próbkowania i liczbą kanałów. Dane te można przetwarzać na dwa sposoby:

  • Synteza standardowa: odebranie pełnych danych audio po zakończeniu syntezy
  • Synteza strumieniowa: odbieranie fragmentów audio w miarę ich generowania, co umożliwia przetwarzanie w czasie rzeczywistym

Konwersja tych surowych danych audio na odtwarzalną falę dźwiękową zwykle wymaga wtyczki Runtime Audio Importer, która oferuje możliwości odtwarzania zarówno standardowego, jak i strumieniowego.

Dodatkowe zasoby

Join our Discord
online · support