Zum Hauptinhalt springen

Wie man Sprachmodelle verwendet

Auswahl, Download und Verpackung von Modellen

Das Plugin unterstützt mehrere Sprachen, Stimmen und Qualitäten. Sie können die benötigten Sprachmodelle einfach über die Plugin-Einstellungen im Editor herunterladen und verwalten. Folgen Sie diesen Schritten, um Sprachmodelle auszuwählen, herunterzuladen und bereitzustellen:

  1. Öffnen Sie die Projekteinstellungen im Editor und navigieren Sie zu Plugins -> Runtime Text To Speech.
  2. Klicken Sie in der Liste Available Voice Models to Download auf die Schaltfläche Download neben dem gewünschten Sprachmodell. Sie können mehrere Sprachmodelle gleichzeitig herunterladen.
  3. Nach Abschluss des Downloads erscheinen die Modelle im Abschnitt Downloaded Voice Models oben in der Liste und stehen für Ihr Projekt zur Verfügung.
  4. Optional können Sie die heruntergeladenen Sprachmodelle testen, indem Sie Text in das Textfeld eingeben und auf die Schaltfläche Play klicken. Dadurch wird der Text mit dem ausgewählten Sprachmodell synthetisiert und abgespielt. Diese Funktion ist nützlich, um die Stimmen direkt im Editor zu überprüfen.

Um heruntergeladene Sprachmodelle zu löschen, klicken Sie auf die Schaltfläche Delete neben dem entsprechenden Modell.

Alle heruntergeladenen Sprachmodelle werden mit Ihrem Projekt verpackt. Um die Projektgröße zu reduzieren, löschen Sie nicht mehr benötigte Modelle.

Importieren benutzerdefinierter Sprachmodelle

Zusätzlich zu den vorkonfigurierten Sprachmodellen können Sie eigene benutzerdefinierte Modelle importieren. Das Plugin unterstützt sowohl Piper- als auch Kokoro-Sprachmodellformate:

  1. Klicken Sie in den Plugin-Einstellungen auf die Schaltfläche Import Custom Voice Model oben auf dem Bildschirm.
  2. Wählen Sie im daraufhin erscheinenden Dialog den Modelltyp (Piper oder Kokoro) aus.
  3. Navigieren Sie zu und wählen Sie Ihre Modelldatei aus:
    • Für Piper: Wählen Sie eine ONNX-formatierte Modelldatei (*.onnx)
    • Für Kokoro: Wählen Sie eine BIN-formatierte Stildatei (*.bin)
  4. Navigieren Sie zu und wählen Sie die entsprechende Konfigurationsdatei (*.json) aus:
    • Für Piper: Diese enthält Einstellungen wie Abtastrate, Phonemzuordnungen und Inferenzparameter
    • Für Kokoro: Diese enthält die Tokenizer-Konfiguration
  5. Geben Sie für Kokoro-Modelle den Sprachcode an (z.B. en-us, en-gb-x-rp, fr, es, etc.)
  6. Klicken Sie auf Import, um das benutzerdefinierte Sprachmodell zu Ihrem Projekt hinzuzufügen.

Hinweise zu benutzerdefinierten Sprachmodellen

  • Piper-Modelle: Sie können selbst trainierte Piper-Sprachmodelle verwenden, was besonders nützlich ist, wenn Sie eine eigene Stimme trainiert haben oder eine spezifische Stimme benötigen, die nicht in der vorkonfigurierten Liste verfügbar ist. Die ONNX-Modelldatei und JSON-Konfigurationsdatei müssen mit dem Piper-Format kompatibel sein.

  • Kokoro-Modelle: Diese Modelle verwenden ein zweiteiliges System: Stildateien (BIN-Format) und ein gemeinsames ONNX-Modell. Wenn Sie eine Kokoro-Stildatei zum ersten Mal importieren, bietet das Plugin automatisch den Download des erforderlichen ONNX-Modells an.

  • Sprachcodes: Für Kokoro-Modelle ist der Sprachcode wichtig für die korrekte Phonemkonvertierung. Häufige Codes sind:

    • Englisch (US): en-us
    • Englisch (UK): en-gb-x-rp
    • Spanisch: es
    • Französisch: fr
    • Italienisch: it
    • Portugiesisch (Brasilien): pt-br
    • Chinesisch (Mandarin): cmn
    • Hindi: hi
    • Deutsch: de

Benutzerdefinierte Sprachmodelle werden wie heruntergeladene Modelle behandelt und mit Ihrem Projekt verpackt.