Przejdź do głównej zawartości

Przegląd

Runtime Text To Speech Documentation

Runtime Text To Speech to wtyczka umożliwiająca syntezę mowy z tekstu w czasie rzeczywistym, działającą offline i wieloplatformowo. Obsługuje 44 języki, ponad 900 głosów i 200+ jakości głosu – teraz z Kokoro 🚀, nowoczesną rodziną modeli głosowych typu open-source o jakości studyjnej. Wtyczka jest szybka, lekka i idealna do gier, aplikacji oraz projektów wymagających naturalnie brzmiącej mowy.

Obecnie wtyczka obsługuje następujące platformy: Windows, Linux, Mac, Android (w tym Meta Quest) oraz iOS.

📹 Zobacz w akcji
Obejrzyj demo na YouTube lub przetestuj ogólne próbki głosów na Piper Samples.

Kokoro

Wtyczka obsługuje również modele głosowe Kokoro – wysokiej jakości architektury syntezy mowy typu open-source, niedawno opublikowane na Hugging Face.

  • 49 wysokiej jakości modeli w 8 językach:
    🇺🇸 Angielski (US) • 🇬🇧 Angielski (UK) • 🇨🇳 Chiński uproszczony • 🇪🇸 Hiszpański • 🇧🇷 Portugalski • 🇮🇳 Hindi • 🇫🇷 Francuski • 🇮🇹 Włoski
  • Dostępny podgląd na żywo: Przetestuj głosy Kokoro
Dlaczego Kokoro?

Modele głosowe Kokoro są obecnie jednymi z najwyższej jakości rozwiązań TTS typu open-source dostępnych obecnie.

Kluczowe funkcje

  • Kompletna synteza offline: Nie wymaga połączenia z internetem
  • Wiele trybów syntezy:
    • Synteza regularna: Generuj kompletny dźwięk dla całego tekstu
    • Synteza strumieniowa: Przetwarzaj fragmenty dźwięku w czasie rzeczywistym w miarę ich generowania
  • Obsługa anulowania: Przerwij trwające operacje syntezy w dowolnym momencie
  • Kompatybilność wieloplatformowa: Działa na wszystkich głównych platformach
  • Obsługa Blueprint i C++: Pełny dostęp do API w obu środowiskach

Instalacja

Aby rozpocząć, zainstaluj modele głosowe za pomocą ustawień wtyczki przy pierwszym uruchomieniu. Po instalacji możesz zacząć korzystać z wtyczki w swoim projekcie. Szczegółowe instrukcje znajdziesz na stronie Jak używać wtyczki.

Szczegóły wtyczki

Ta wtyczka zapewnia syntezę mowy z tekstu w czasie rzeczywistym przy użyciu bibliotek Piper, Kokoro i ONNX Runtime. Wtyczka umożliwia pobieranie i zarządzanie wieloma modelami głosowymi za pomocą edytora, które następnie mogą być dołączone do twojego projektu.

Podstawowa funkcjonalność obejmuje przetwarzanie tekstu wejściowego i wybór modelu głosowego do syntezy. Niektóre modele głosowe obsługują wielu mówców – na przykład English LibriTTS zawiera ponad 900 różnych mówców, German Thorsten Emotional ma 7 mówców itp. Wynikiem są dane audio w formacie PCM (w formacie float) z odpowiadającą im częstotliwością próbkowania i liczbą kanałów. Te dane można przetworzyć na dwa sposoby:

  • Synteza standardowa: Otrzymaj kompletne dane audio po zakończeniu syntezy
  • Synteza strumieniowa: Otrzymuj dane audio w porcjach w miarę ich generowania, umożliwiając przetwarzanie w czasie rzeczywistym

Konwersja tych surowych danych audio na odtwarzalną falę dźwiękową zazwyczaj wymaga wtyczki Runtime Audio Importer, która zapewnia zarówno standardowe, jak i strumieniowe możliwości odtwarzania.

Dodatkowe zasoby