Przegląd

Runtime Text To Speech to wtyczka umożliwiająca syntezę mowy w czasie rzeczywistym, offline i na wielu platformach. Obsługuje 51 języków, ponad 2800 głosów i 75 jakości głosu, a teraz także Kokoro, otwartą rodzinę modeli głosowych o studyjnej jakości. Wtyczka jest szybka, lekka i idealna do gier, aplikacji oraz projektów wymagających naturalnie brzmiącej mowy.

Obecnie wtyczka obsługuje następujące platformy: Windows, Linux, Mac, Android (w tym Meta Quest) oraz iOS.

📹 Zobacz ją w akcji
Obejrzyj demo na YouTube (starszy film) lub przetestuj próbki głosów na Piper Samples.

Kokoro

Wtyczka obsługuje również modele głosowe Kokoro (w tym Kokoro v1.1) – wysokiej jakości otwarte architektury TTS opublikowane niedawno na Hugging Face.

151 wysokiej jakości modeli w 8 językach:
🇺🇸 angielski (USA) • 🇬🇧 angielski (UK) • 🇨🇳 chiński uproszczony • 🇪🇸 hiszpański • 🇧🇷 portugalski • 🇮🇳 hindi • 🇫🇷 francuski • 🇮🇹 włoski
Podgląd na żywo dostępny: Przetestuj głosy Kokoro

Dlaczego Kokoro?

Modele głosowe Kokoro należą obecnie do najwyższej jakości rozwiązań open-source do syntezy mowy dostępnych na rynku.

Kluczowe funkcje

Synteza całkowicie offline: nie wymaga połączenia z internetem
Wiele trybów syntezy:
- Synteza standardowa: generowanie pełnego dźwięku dla całego tekstu
- Synteza strumieniowa: przetwarzanie fragmentów audio w czasie rzeczywistym w miarę ich generowania
Obsługa anulowania: możliwość przerwania trwającej syntezy w dowolnym momencie
Kompatybilność międzplatformowa: działa na wszystkich głównych platformach
Wsparcie dla Blueprint i C++: pełny dostęp do API w obu środowiskach

Instalacja

Aby rozpocząć, zainstaluj modele głosowe w ustawieniach wtyczki podczas pierwszego uruchomienia. Po instalacji możesz zacząć korzystać z wtyczki w swoim projekcie. Szczegółowe instrukcje znajdziesz na stronie Jak korzystać z wtyczki.

Szczegóły wtyczki

Wtyczka zapewnia syntezę mowy w czasie rzeczywistym przy użyciu bibliotek Piper, Kokoro i ONNX Runtime. Pozwala pobierać wiele modeli głosowych i zarządzać nimi z poziomu edytora, a następnie spakować je razem z projektem.

Podstawowa funkcjonalność obejmuje przetwarzanie wprowadzonego tekstu i wybór modelu głosowego do syntezy. Niektóre modele głosowe obsługują wielu mówców – na przykład English LibriTTS zawiera ponad 900 różnych mówców, niemiecki Thorsten Emotional ma 7 mówców itp.

Wynikiem są dane audio PCM (w formacie float) z odpowiadającą częstotliwością próbkowania i liczbą kanałów. Dane te można przetwarzać na dwa sposoby:

Synteza standardowa: odebranie pełnych danych audio po zakończeniu syntezy
Synteza strumieniowa: odbieranie fragmentów audio w miarę ich generowania, co umożliwia przetwarzanie w czasie rzeczywistym

Konwersja tych surowych danych audio na odtwarzalną falę dźwiękową zwykle wymaga wtyczki Runtime Audio Importer, która oferuje możliwości odtwarzania zarówno standardowego, jak i strumieniowego.

Dodatkowe zasoby

Pobierz na Fab
Strona produktu
Pobierz demo (Windows)
Film instruktażowy (starszy film)
Wsparcie wtyczki i rozwój na zamówienie: [email protected] (rozwiązania dostosowane do potrzeb zespołów i organizacji)

Join our Discord

online · support

Kokoro​

Kluczowe funkcje​

Instalacja​

Szczegóły wtyczki​

Dodatkowe zasoby​

Kokoro

Kluczowe funkcje

Instalacja

Szczegóły wtyczki

Dodatkowe zasoby