Przegląd

Runtime Text To Speech to wtyczka umożliwiająca syntezę mowy z tekstu w czasie rzeczywistym, offline i wieloplatformowo. Obsługuje 47 języków, ponad 900 głosów i 170 jakości głosu, a teraz także Kokoro, rodzinę otwartoźródłowych modeli głosowych o jakości studyjnej. Wtyczka jest szybka, lekka i idealna do gier, aplikacji oraz projektów wymagających naturalnie brzmiącej mowy.
Obecnie wtyczka obsługuje następujące platformy: Windows, Linux, Mac, Android (w tym Meta Quest) oraz iOS.
📹 Zobacz w akcji
Obejrzyj demo na YouTube lub przetestuj ogólne próbki głosów na Piper Samples.
Kokoro
Wtyczka obsługuje również modele głosowe Kokoro (w tym Kokoro v1.1) – wysokiej jakości otwartoźródłowe architektury TTS opublikowane niedawno na Hugging Face.
- 151 wysokiej jakości modeli w 8 językach:
🇺🇸 Angielski (US) • 🇬🇧 Angielski (UK) • 🇨🇳 Chiński uproszczony • 🇪🇸 Hiszpański • 🇧🇷 Portugalski • 🇮🇳 Hindi • 🇫🇷 Francuski • 🇮🇹 Włoski - Dostępny podgląd na żywo: Przetestuj głosy Kokoro
Modele głosowe Kokoro są obecnie jednym z najwyższej jakości otwartoźródłowych rozwiązań TTS dostępnych obecnie.
Kluczowe funkcje
- Kompletna synteza offline: Nie wymaga połączenia z internetem
- Wiele trybów syntezy:
- Zwykła synteza: Generuj kompletny dźwięk dla całego tekstu
- Synteza strumieniowa: Przetwarzaj fragmenty dźwięku w czasie rzeczywistym w miarę ich generowania
- Obsługa anulowania: Przerwij trwające operacje syntezy w dowolnym momencie
- Kompatybilność wieloplatformowa: Działa na wszystkich głównych platformach
- Obsługa Blueprint i C++: Pełny dostęp do API w obu środowiskach
Instalacja
Aby rozpocząć, zainstaluj modele głosowe za pomocą ustawień wtyczki przy pierwszym uruchomieniu. Po instalacji możesz zacząć korzystać z wtyczki w swoim projekcie. Szczegółowe instrukcje znajdziesz na stronie Jak używać wtyczki.
Szczegóły wtyczki
Ta wtyczka zapewnia syntezę mowy z tekstu w czasie rzeczywistym przy użyciu bibliotek Piper, Kokoro i ONNX Runtime. Wtyczka umożliwia pobieranie i zarządzanie wieloma modelami głosowymi za pomocą edytora, które następnie mogą być dołączone do twojego projektu.
Podstawowa funkcjonalność polega na przetwarzaniu tekstu wejściowego i wyborze modelu głosowego do syntezy. Niektóre modele głosowe obsługują wielu mówców – na przykład English LibriTTS zawiera ponad 900 różnych mówców, niemiecki Thorsten Emotional ma 7 mówców itp.
Wynikiem są dane audio PCM (w formacie float) z odpowiednią częstotliwością próbkowania i liczbą kanałów. Te dane mogą być przetwarzane na dwa sposoby:
- Zwykła synteza: Otrzymaj kompletne dane audio po zakończeniu syntezy
- Synteza strumieniowa: Otrzymuj dane audio w fragmentach w miarę ich generowania, umożliwiając przetwarzanie w czasie rzeczywistym
Konwersja tych surowych danych audio na odtwarzalną falę dźwiękową zazwyczaj wymaga wtyczki Runtime Audio Importer, która zapewnia zarówno zwykłe, jak i strumieniowe możliwości odtwarzania.
Dodatkowe zasoby
- Pobierz na Fab
- Strona produktu
- Pobierz demo (Windows)
- Serwer wsparcia na Discordzie
- Samouczek wideo
- Wsparcie wtyczki i rozwój niestandardowy: [email protected] (spersonalizowane rozwiązania dla zespołów i organizacji)