Przegląd

Runtime Text To Speech to wtyczka umożliwiająca syntezę mowy w czasie rzeczywistym, offline i na wielu platformach. Obsługuje 51 języków, ponad 2800 głosów i 75 jakości głosu, a teraz także Kokoro, otwartą rodzinę modeli głosowych o studyjnej jakości. Wtyczka jest szybka, lekka i idealna do gier, aplikacji oraz projektów wymagających naturalnie brzmiącej mowy.
Obecnie wtyczka obsługuje następujące platformy: Windows, Linux, Mac, Android (w tym Meta Quest) oraz iOS.
📹 Zobacz ją w akcji
Obejrzyj demo na YouTube (starszy film) lub przetestuj próbki głosów na Piper Samples.
Kokoro
Wtyczka obsługuje również modele głosowe Kokoro (w tym Kokoro v1.1) – wysokiej jakości otwarte architektury TTS opublikowane niedawno na Hugging Face.
- 151 wysokiej jakości modeli w 8 językach:
🇺🇸 angielski (USA) • 🇬🇧 angielski (UK) • 🇨🇳 chiński uproszczony • 🇪🇸 hiszpański • 🇧🇷 portugalski • 🇮🇳 hindi • 🇫🇷 francuski • 🇮🇹 włoski - Podgląd na żywo dostępny: Przetestuj głosy Kokoro
Modele głosowe Kokoro należą obecnie do najwyższej jakości rozwiązań open-source do syntezy mowy dostępnych na rynku.
Kluczowe funkcje
- Synteza całkowicie offline: nie wymaga połączenia z internetem
- Wiele trybów syntezy:
- Synteza standardowa: generowanie pełnego dźwięku dla całego tekstu
- Synteza strumieniowa: przetwarzanie fragmentów audio w czasie rzeczywistym w miarę ich generowania
- Obsługa anulowania: możliwość przerwania trwającej syntezy w dowolnym momencie
- Kompatybilność międzplatformowa: działa na wszystkich głównych platformach
- Wsparcie dla Blueprint i C++: pełny dostęp do API w obu środowiskach
Instalacja
Aby rozpocząć, zainstaluj modele głosowe w ustawieniach wtyczki podczas pierwszego uruchomienia. Po instalacji możesz zacząć korzystać z wtyczki w swoim projekcie. Szczegółowe instrukcje znajdziesz na stronie Jak korzystać z wtyczki.
Szczegóły wtyczki
Wtyczka zapewnia syntezę mowy w czasie rzeczywistym przy użyciu bibliotek Piper, Kokoro i ONNX Runtime. Pozwala pobierać wiele modeli głosowych i zarządzać nimi z poziomu edytora, a następnie spakować je razem z projektem.
Podstawowa funkcjonalność obejmuje przetwarzanie wprowadzonego tekstu i wybór modelu głosowego do syntezy. Niektóre modele głosowe obsługują wielu mówców – na przykład English LibriTTS zawiera ponad 900 różnych mówców, niemiecki Thorsten Emotional ma 7 mówców itp.
Wynikiem są dane audio PCM (w formacie float) z odpowiadającą częstotliwością próbkowania i liczbą kanałów. Dane te można przetwarzać na dwa sposoby:
- Synteza standardowa: odebranie pełnych danych audio po zakończeniu syntezy
- Synteza strumieniowa: odbieranie fragmentów audio w miarę ich generowania, co umożliwia przetwarzanie w czasie rzeczywistym
Konwersja tych surowych danych audio na odtwarzalną falę dźwiękową zwykle wymaga wtyczki Runtime Audio Importer, która oferuje możliwości odtwarzania zarówno standardowego, jak i strumieniowego.
Dodatkowe zasoby
- Pobierz na Fab
- Strona produktu
- Pobierz demo (Windows)
- Film instruktażowy (starszy film)
- Wsparcie wtyczki i rozwój na zamówienie: [email protected] (rozwiązania dostosowane do potrzeb zespołów i organizacji)