Przegląd
Runtime Text To Speech to wtyczka umożliwiająca syntezę mowy z tekstu w czasie rzeczywistym, działającą offline i wieloplatformowo. Obsługuje 41 języków, ponad 900 głosów i 190+ jakości głosu – teraz z funkcją Kokoro 🚀, nowoczesną rodziną otwartych modeli głosowych o jakości studyjnej. Wtyczka jest szybka, lekka i idealna do gier, aplikacji oraz projektów wymagających naturalnie brzmiącej mowy.
Obecnie wtyczka obsługuje następujące platformy: Windows, Linux, Mac, Android (w tym Meta Quest) oraz iOS.
📹 Zobacz to w akcji
Obejrzyj demo na YouTube lub przetestuj ogólne próbki głosu na Piper Samples.
Kokoro
Wtyczka implementuje teraz modele głosowe Kokoro - wysokiej jakości otwarte architektury TTS opublikowane niedawno na Hugging Face.
- 49 wysokiej jakości modeli w 8 językach:
🇺🇸 Angielski (US) • 🇬🇧 Angielski (UK) • 🇨🇳 Chiński uproszczony • 🇪🇸 Hiszpański • 🇧🇷 Portugalski • 🇮🇳 Hindi • 🇫🇷 Francuski • 🇮🇹 Włoski - Dostępny podgląd na żywo: Przetestuj głosy Kokoro
Modele głosowe Kokoro są obecnie jednymi z najwyższej jakości otwartych rozwiązań TTS dostępnych obecnie.
Kluczowe funkcje
- Pełna synteza offline: Nie wymaga połączenia z internetem
- Wiele trybów syntezy:
- Standardowa synteza: Generuj pełny dźwięk dla całego tekstu
- Synteza strumieniowa: Przetwarzaj fragmenty dźwięku w czasie rzeczywistym w miarę ich generowania
- Obsługa anulowania: Przerwij trwające operacje syntezy w dowolnym momencie
- Kompatybilność wieloplatformowa: Działa na wszystkich głównych platformach
- Obsługa Blueprint i C++: Pełny dostęp do API w obu środowiskach
Instalacja
Aby rozpocząć, zainstaluj modele głosowe za pomocą ustawień wtyczki przy pierwszym uruchomieniu. Po instalacji możesz zacząć używać wtyczki w swoim projekcie. Szczegółowe instrukcje znajdują się na stronie Jak używać wtyczki.
Szczegóły wtyczki
Ta wtyczka zapewnia syntezę mowy z tekstu w czasie rzeczywistym przy użyciu bibliotek Piper, Kokoro i ONNX Runtime. Wtyczka pozwala na pobieranie i zarządzanie wieloma modelami głosowymi za pomocą edytora, które następnie mogą być dołączone do twojego projektu.
Podstawowa funkcjonalność składa się z przetwarzania tekstu wejściowego i wyboru modelu głosowego do syntezy. Niektóre modele głosowe obsługują wielu mówców – na przykład English LibriTTS zawiera ponad 900 różnych mówców, niemiecki Thorsten Emotional ma 7 mówców itp. Wyjście to dane audio PCM (w formacie float) z odpowiadającą im częstotliwością próbkowania i liczbą kanałów. Te dane mogą być przetwarzane na dwa sposoby:
- Standardowa synteza: Odbierz pełne dane audio po zakończeniu syntezy
- Synteza strumieniowa: Odbieraj dane audio w porcjach w miarę ich generowania, umożliwiając przetwarzanie w czasie rzeczywistym
Konwersja tych surowych danych audio na odtwarzalną falę dźwiękową zazwyczaj wymaga wtyczki Runtime Audio Importer, która zapewnia zarówno standardowe, jak i strumieniowe możliwości odtwarzania.
Dodatkowe zasoby
- Pobierz na Fab
- Strona produktu
- Pobierz Demo (Windows)
- Serwer wsparcia na Discordzie
- Samouczek wideo
- Niestandardowy rozwój: [email protected] (spersonalizowane rozwiązania dla zespołów i organizacji)