Przejdź do głównej zawartości

Jak używać modeli głosowych

Wybieranie, pobieranie i pakowanie modeli

Wtyczka obsługuje wiele języków, głosów i jakości. Możesz łatwo pobierać i zarządzać potrzebnymi modelami głosowymi za pomocą ustawień wtyczki w edytorze. Wykonaj następujące kroki, aby wybrać, pobrać i przygotować modele głosowe:

  1. Otwórz ustawienia projektu w edytorze i przejdź do Wtyczki -> Runtime Text To Speech.
  2. Na liście Dostępne modele głosowe do pobrania kliknij przycisk Pobierz obok modelu głosowego, który chcesz pobrać. Możesz pobrać wiele modeli głosowych jednocześnie.
  3. Po zakończeniu pobierania modele pojawią się w sekcji Pobrane modele głosowe na górze listy i będą dostępne do użycia w twoim projekcie.
  4. Opcjonalnie możesz wypróbować pobrane modele głosowe, wpisując tekst w pole tekstowe i klikając przycisk Odtwórz. Spowoduje to zsyntezowanie i odtworzenie tekstu przy użyciu wybranego modelu głosowego. Ta funkcja jest przydatna do testowania w edytorze, aby upewnić się, że model głosowy brzmi zgodnie z oczekiwaniami.

Aby usunąć pobrane modele głosowe, kliknij przycisk Usuń obok modelu, który chcesz usunąć.

Wszystkie pobrane modele głosowe zostaną zapakowane wraz z twoim projektem, więc aby zmniejszyć rozmiar projektu, usuń wszystkie modele głosowe, których już nie potrzebujesz.

Importowanie własnych modeli głosowych

Oprócz wstępnie skonfigurowanych modeli głosowych możesz importować własne niestandardowe modele głosowe. Wtyczka obsługuje formaty modeli głosowych Piper i Kokoro:

  1. W ustawieniach wtyczki kliknij przycisk Importuj niestandardowy model głosowy na górze ekranu.
  2. W wyświetlonym oknie dialogowym wybierz typ modelu (Piper lub Kokoro).
  3. Przejdź i wybierz plik modelu:
    • Dla Piper: Wybierz plik modelu w formacie ONNX (*.onnx)
    • Dla Kokoro: Wybierz plik stylu w formacie BIN (*.bin)
  4. Przejdź i wybierz odpowiedni plik konfiguracyjny (*.json):
    • Dla Piper: Zawiera ustawienia takie jak częstotliwość próbkowania, mapowania fonemów i parametry wnioskowania
    • Dla Kokoro: Zawiera konfigurację tokenizera
  5. Dla modeli Kokoro określ kod języka (np. en-us, en-gb-x-rp, fr, es, itd.)
  6. Kliknij Importuj, aby dodać niestandardowy model głosowy do twojego projektu.

Uwagi dotyczące niestandardowych modeli głosowych

  • Modele Piper: Możesz używać niestandardowo wytrenowanych modeli głosowych Piper, co jest szczególnie przydatne, jeśli wytrenowałeś własny głos lub potrzebujesz konkretnego głosu niedostępnego na wstępnie skonfigurowanej liście. Model ONNX i plik konfiguracyjny JSON muszą być kompatybilne z formatem Piper.

  • Modele Kokoro: Te modele używają systemu dwuczęściowego: pliki stylów (format BIN) i współdzielony model ONNX. Kiedy po raz pierwszy importujesz plik stylu Kokoro, wtyczka zaproponuje automatyczne pobranie wymaganego modelu ONNX.

  • Kody Językowe: Dla modeli Kokoro, kod języka jest ważny dla prawidłowej konwersji fonemów. Powszechne kody obejmują:

    • Angielski (USA): en-us
    • Angielski (Wielka Brytania): en-gb-x-rp
    • Hiszpański: es
    • Francuski: fr
    • Włoski: it
    • Portugalski (Brazylia): pt-br
    • Chiński (Mandaryński): cmn
    • Hindi: hi
    • Niemiecki: de

Niestandardowe modele głosowe są traktowane tak samo jak pobrane modele i będą dołączane do twojego projektu.