Zum Hauptinhalt springen

Übersicht

Runtime Text To Speech Dokumentation

Runtime Text To Speech ist ein Plugin, das Echtzeit-, Offline- und plattformübergreifende Text-zu-Sprache-Synthese ermöglicht. Es unterstützt 44 Sprachen, über 900 Stimmen und 200+ Stimmqualitäten – jetzt mit Kokoro 🚀, einer bahnbrechenden Open-Source-Stimmenmodellfamilie mit Studioqualität. Das Plugin ist schnell, leichtgewichtig und ideal für Spiele, Apps und Projekte, die natürlich klingende Sprache benötigen.

Derzeit unterstützt das Plugin die folgenden Plattformen: Windows, Linux, Mac, Android (einschließlich Meta Quest) und iOS.

📹 In Aktion sehen
Sehen Sie sich die YouTube-Demo an oder testen Sie generische Sprachbeispiele bei Piper Samples.

Kokoro

Das Plugin unterstützt auch Kokoro-Stimmenmodelle – hochwertige Open-Source-TTS-Architekturen, die kürzlich auf Hugging Face veröffentlicht wurden.

  • 49 hochwertige Modelle in 8 Sprachen:
    🇺🇸 Englisch (US) • 🇬🇧 Englisch (UK) • 🇨🇳 Vereinfachtes Chinesisch • 🇪🇸 Spanisch • 🇧🇷 Portugiesisch • 🇮🇳 Hindi • 🇫🇷 Französisch • 🇮🇹 Italienisch
  • Live-Vorschau verfügbar: Kokoro-Stimmen testen
Warum Kokoro?

Die Kokoro-Stimmenmodelle gehören derzeit zu den hochwertigsten Open-Source-TTS-Lösungen, die heute verfügbar sind.

Hauptmerkmale

  • Komplette Offline-Synthese: Keine Internetverbindung erforderlich
  • Mehrere Synthesemodi:
    • Reguläre Synthese: Erzeugt vollständiges Audio für den gesamten Text
    • Streaming-Synthese: Verarbeitet Audio-Chunks in Echtzeit, während sie erzeugt werden
  • Abbruchunterstützung: Laufende Synthesevorgänge jederzeit unterbrechen
  • Plattformübergreifende Kompatibilität: Funktioniert auf allen gängigen Plattformen
  • Blueprint- und C++-Unterstützung: Vollständiger API-Zugriff in beiden Umgebungen

Installation

Um zu beginnen, installieren Sie Stimmenmodelle über die Plugineinstellungen beim ersten Start. Nach der Installation können Sie das Plugin in Ihrem Projekt verwenden. Detaillierte Anweisungen finden Sie auf der Seite Wie man das Plugin verwendet.

Plugindetails

Dieses Plugin bietet Echtzeit-Text-zu-Sprache-Synthese mithilfe der Bibliotheken Piper, Kokoro und ONNX Runtime. Das Plugin ermöglicht es Ihnen, über den Editor mehrere Stimmenmodelle herunterzuladen und zu verwalten, die dann mit Ihrem Projekt gebündelt werden können.

Die Kernfunktionalität besteht aus der Verarbeitung von Texteingaben und der Auswahl von Stimmenmodellen für die Synthese. Einige Stimmenmodelle unterstützen mehrere Sprecher – zum Beispiel enthält English LibriTTS über 900 verschiedene Sprecher, German Thorsten Emotional hat 7 Sprecher, usw. Die Ausgabe sind PCM-Audiodaten (im Float-Format) mit entsprechender Abtastrate und Anzahl an Kanälen. Diese Daten können auf zwei Arten verarbeitet werden:

  • Reguläre Synthese: Erhalte die vollständigen Audiodaten, wenn die Synthese abgeschlossen ist
  • Streaming-Synthese: Erhalte Audiodaten in Blöcken, während sie erzeugt werden, was eine Echtzeitverarbeitung ermöglicht

Die Umwandlung dieser rohen Audiodaten in eine abspielbare Schallwelle erfordert normalerweise das Plugin Runtime Audio Importer, das sowohl reguläre als auch Streaming-Wiedergabefähigkeiten bietet.

Zusätzliche Ressourcen