Übersicht

Runtime Text To Speech ist ein Plugin, das Echtzeit-, Offline- und plattformübergreifende Text-zu-Sprache-Synthese ermöglicht. Es unterstützt 45 Sprachen, über 900 Stimmen und 140+ Stimmqualitäten – jetzt mit Kokoro 🚀, einer bahnbrechenden Open-Source-Stimmenmodellfamilie mit Studioqualität. Das Plugin ist schnell, leichtgewichtig und ideal für Spiele, Apps und Projekte, die natürlich klingende Sprache benötigen.
Derzeit unterstützt das Plugin die folgenden Plattformen: Windows, Linux, Mac, Android (einschließlich Meta Quest) und iOS.
📹 In Aktion sehen
Sehen Sie sich die YouTube-Demo an oder testen Sie generische Sprachbeispiele bei Piper Samples.
Kokoro
Das Plugin unterstützt auch Kokoro-Stimmenmodelle (einschließlich Kokoro v1.1) – hochwertige Open-Source-TTS-Architekturen, die kürzlich auf Hugging Face veröffentlicht wurden.
- 152 hochwertige Modelle in 8 Sprachen:
🇺🇸 Englisch (US) • 🇬🇧 Englisch (UK) • 🇨🇳 Vereinfachtes Chinesisch • 🇪🇸 Spanisch • 🇧🇷 Portugiesisch • 🇮🇳 Hindi • 🇫🇷 Französisch • 🇮🇹 Italienisch - Live-Vorschau verfügbar: Kokoro-Stimmen testen
Die Kokoro-Stimmenmodelle gehören derzeit zu den hochwertigsten Open-Source-TTS-Lösungen, die heute verfügbar sind.
Hauptmerkmale
- Vollständige Offline-Synthese: Keine Internetverbindung erforderlich
- Mehrere Synthesemodi:
- Reguläre Synthese: Erzeuge vollständiges Audio für den gesamten Text
- Streaming-Synthese: Verarbeite Audio-Chunks in Echtzeit, während sie erzeugt werden
- Abbruchunterstützung: Laufende Synthesevorgänge jederzeit unterbrechen
- Plattformübergreifende Kompatibilität: Funktioniert auf allen gängigen Plattformen
- Blueprint- und C++-Unterstützung: Vollständiger API-Zugriff in beiden Umgebungen
Installation
Um zu beginnen, installieren Sie Stimmenmodelle über die Plugineinstellungen beim ersten Start. Nach der Installation können Sie das Plugin in Ihrem Projekt verwenden. Detaillierte Anweisungen finden Sie auf der Seite Wie man das Plugin verwendet.
Plugindetails
Dieses Plugin bietet Echtzeit-Text-zu-Sprache-Synthese mithilfe der Bibliotheken Piper, Kokoro und ONNX Runtime. Das Plugin ermöglicht es Ihnen, mehrere Stimmenmodelle über den Editor herunterzuladen und zu verwalten, die dann mit Ihrem Projekt gebündelt werden können.
Die Kernfunktionalität besteht aus der Verarbeitung von Texteingaben und der Auswahl von Stimmenmodellen für die Synthese. Einige Stimmenmodelle unterstützen mehrere Sprecher – zum Beispiel enthält English LibriTTS über 900 verschiedene Sprecher, German Thorsten Emotional hat 7 Sprecher usw.
Die Ausgabe sind PCM-Audiodaten (im Float-Format) mit entsprechender Abtastrate und Anzahl an Kanälen. Diese Daten können auf zwei Arten verarbeitet werden:
- Reguläre Synthese: Erhalte die vollständigen Audiodaten, wenn die Synthese abgeschlossen ist
- Streaming-Synthese: Erhalte Audiodaten in Chunks, während sie erzeugt werden, was eine Echtzeitverarbeitung ermöglicht
Die Umwandlung dieser Roh-Audiodaten in eine abspielbare Schallwelle erfordert normalerweise das Plugin Runtime Audio Importer, das sowohl reguläre als auch Streaming-Wiedergabefähigkeiten bietet.
Zusätzliche Ressourcen
- Auf Fab erhalten
- Produktwebsite
- Demo herunterladen (Windows)
- Discord-Support-Server
- Video-Tutorial
- Plugin-Support & Individuelle Entwicklung: [email protected] (maßgeschneiderte Lösungen für Teams & Organisationen)