Przegląd

Runtime Text To Speech to wtyczka umożliwiająca syntezę mowy z tekstu w czasie rzeczywistym, działającą offline i wieloplatformowo. Obsługuje 44 języki, ponad 900 głosów i 200+ jakości głosu – teraz z Kokoro 🚀, nowoczesną rodziną modeli głosowych typu open-source o jakości studyjnej. Wtyczka jest szybka, lekka i idealna do gier, aplikacji oraz projektów wymagających naturalnie brzmiącej mowy.
Obecnie wtyczka obsługuje następujące platformy: Windows, Linux, Mac, Android (w tym Meta Quest) oraz iOS.
📹 Zobacz w akcji
Obejrzyj demo na YouTube lub przetestuj ogólne próbki głosów na Piper Samples.
Kokoro
Wtyczka obsługuje również modele głosowe Kokoro – wysokiej jakości architektury syntezy mowy typu open-source, niedawno opublikowane na Hugging Face.
- 49 wysokiej jakości modeli w 8 językach:
🇺🇸 Angielski (US) • 🇬🇧 Angielski (UK) • 🇨🇳 Chiński uproszczony • 🇪🇸 Hiszpański • 🇧🇷 Portugalski • 🇮🇳 Hindi • 🇫🇷 Francuski • 🇮🇹 Włoski - Dostępny podgląd na żywo: Przetestuj głosy Kokoro
Modele głosowe Kokoro są obecnie jednymi z najwyższej jakości rozwiązań TTS typu open-source dostępnych obecnie.
Kluczowe funkcje
- Kompletna synteza offline: Nie wymaga połączenia z internetem
- Wiele trybów syntezy:
- Synteza regularna: Generuj kompletny dźwięk dla całego tekstu
- Synteza strumieniowa: Przetwarzaj fragmenty dźwięku w czasie rzeczywistym w miarę ich generowania
- Obsługa anulowania: Przerwij trwające operacje syntezy w dowolnym momencie
- Kompatybilność wieloplatformowa: Działa na wszystkich głównych platformach
- Obsługa Blueprint i C++: Pełny dostęp do API w obu środowiskach
Instalacja
Aby rozpocząć, zainstaluj modele głosowe za pomocą ustawień wtyczki przy pierwszym uruchomieniu. Po instalacji możesz zacząć korzystać z wtyczki w swoim projekcie. Szczegółowe instrukcje znajdziesz na stronie Jak używać wtyczki.
Szczegóły wtyczki
Ta wtyczka zapewnia syntezę mowy z tekstu w czasie rzeczywistym przy użyciu bibliotek Piper, Kokoro i ONNX Runtime. Wtyczka umożliwia pobieranie i zarządzanie wieloma modelami głosowymi za pomocą edytora, które następnie mogą być dołączone do twojego projektu.
Podstawowa funkcjonalność obejmuje przetwarzanie tekstu wejściowego i wybór modelu głosowego do syntezy. Niektóre modele głosowe obsługują wielu mówców – na przykład English LibriTTS zawiera ponad 900 różnych mówców, German Thorsten Emotional ma 7 mówców itp. Wynikiem są dane audio w formacie PCM (w formacie float) z odpowiadającą im częstotliwością próbkowania i liczbą kanałów. Te dane można przetworzyć na dwa sposoby:
- Synteza standardowa: Otrzymaj kompletne dane audio po zakończeniu syntezy
- Synteza strumieniowa: Otrzymuj dane audio w porcjach w miarę ich generowania, umożliwiając przetwarzanie w czasie rzeczywistym
Konwersja tych surowych danych audio na odtwarzalną falę dźwiękową zazwyczaj wymaga wtyczki Runtime Audio Importer, która zapewnia zarówno standardowe, jak i strumieniowe możliwości odtwarzania.
Dodatkowe zasoby
- Pobierz na Fab
- Strona produktu
- Pobierz demo (Windows)
- Serwer wsparcia na Discordzie
- Samouczek wideo
- Wsparcie dla wtyczki & rozwój na zamówienie: [email protected] (spersonalizowane rozwiązania dla zespołów i organizacji)