Zum Hauptinhalt springen

Übersicht

Runtime Text To Speech Dokumentation

Runtime Text To Speech ist ein Plugin, das Echtzeit-, Offline- und plattformübergreifende Text-zu-Sprache-Synthese ermöglicht. Es unterstützt 41 Sprachen, über 900 Stimmen und 190+ Sprachqualitäten – jetzt mit Kokoro �, einer bahnbrechenden Open-Source-Stimmenmodellfamilie mit Studioqualität. Das Plugin ist schnell, leichtgewichtig und ideal für Spiele, Apps und Projekte, die natürlich klingende Sprache benötigen.

Aktuell unterstützt das Plugin folgende Plattformen: Windows, Linux, Mac, Android (einschließlich Meta Quest) und iOS.

📹 Live-Demo
Sehen Sie sich die YouTube-Demo an oder testen Sie generische Sprachbeispiele unter Piper Samples.

Kokoro

Das Plugin implementiert nun Kokoro-Stimmenmodelle – hochwertige Open-Source-TTS-Architekturen, die kürzlich auf Hugging Face veröffentlicht wurden.

  • 49 hochwertige Modelle in 8 Sprachen:
    🇺🇸 Englisch (US) • 🇬🇧 Englisch (UK) • 🇨🇳 Vereinfachtes Chinesisch • 🇪🇸 Spanisch • 🇧🇷 Portugiesisch • 🇮🇳 Hindi • 🇫🇷 Französisch • 🇮🇹 Italienisch
  • Live-Vorschau verfügbar: Kokoro-Stimmen testen
Warum Kokoro?

Die Kokoro-Stimmenmodelle gehören aktuell zu den hochwertigsten Open-Source-TTS-Lösungen auf dem Markt.

Hauptmerkmale

  • Vollständige Offline-Synthese: Keine Internetverbindung erforderlich
  • Mehrere Synthesemodi:
    • Reguläre Synthese: Generiert vollständige Audiodaten für den gesamten Text
    • Streaming-Synthese: Verarbeitet Audioblöcke in Echtzeit während der Generierung
  • Abbruchunterstützung: Laufende Synthesevorgänge können jederzeit unterbrochen werden
  • Plattformübergreifende Kompatibilität: Funktioniert auf allen gängigen Plattformen
  • Blueprint- und C++-Unterstützung: Vollständiger API-Zugriff in beiden Umgebungen

Installation

Laden Sie zunächst Sprachmodelle über die Plugin-Einstellungen beim ersten Start herunter. Nach der Installation können Sie das Plugin in Ihrem Projekt verwenden. Detaillierte Anleitungen finden Sie auf der Seite Wie man das Plugin verwendet.

Plugin-Details

Dieses Plugin bietet Echtzeit-Text-zu-Sprache-Synthese mit den Bibliotheken Piper, Kokoro und ONNX Runtime. Sie können mehrere Sprachmodelle über den Editor herunterladen und verwalten, die dann mit Ihrem Projekt gebündelt werden können.

Die Kernfunktionalität umfasst die Verarbeitung von Texteingaben und die Auswahl von Sprachmodellen für die Synthese. Einige Sprachmodelle unterstützen mehrere Sprecher – beispielsweise enthält English LibriTTS über 900 verschiedene Sprecher, German Thorsten Emotional hat 7 Sprecher usw.

Die Ausgabe erfolgt als PCM-Audiodaten (im Float-Format) mit entsprechender Abtastrate und Kanälen. Diese Daten können auf zwei Arten verarbeitet werden:

  • Reguläre Synthese: Erhält die vollständigen Audiodaten nach Abschluss der Synthese
  • Streaming-Synthese: Erhält Audiodaten in Blöcken während der Generierung, was Echtzeitverarbeitung ermöglicht

Die Konvertierung dieser Rohaudiodaten in eine abspielbare Schallwelle erfordert normalerweise das Runtime Audio Importer-Plugin, das sowohl reguläre als auch Streaming-Wiedergabefunktionen bietet.

Zusätzliche Ressourcen