Übersicht

Runtime Text To Speech ist ein Plugin, das Echtzeit-, Offline- und plattformübergreifende Text-zu-Sprache-Synthese ermöglicht. Es unterstützt 51 Sprachen, über 2800 Stimmen und 75 Stimmqualitäten und verfügt nun über Kokoro, eine Open-Source-Stimmenmodellfamilie mit Studioqualität. Das Plugin ist schnell, leichtgewichtig und ideal für Spiele, Apps und Projekte, die natürlich klingende Sprache benötigen.
Derzeit unterstützt das Plugin die folgenden Plattformen: Windows, Linux, Mac, Android (einschließlich Meta Quest) und iOS.
📹 In Aktion sehen
Sehen Sie sich die YouTube-Demo an (älteres Video) oder testen Sie allgemeine Sprachbeispiele auf Piper Samples.
Kokoro
Das Plugin unterstützt auch Kokoro-Sprachmodelle (einschließlich Kokoro v1.1) – hochwertige Open-Source-TTS-Architekturen, die kürzlich auf Hugging Face veröffentlicht wurden.
- 151 hochwertige Modelle in 8 Sprachen:
🇺🇸 Englisch (US) • 🇬🇧 Englisch (UK) • 🇨🇳 Vereinfachtes Chinesisch • 🇪🇸 Spanisch • 🇧🇷 Portugiesisch • 🇮🇳 Hindi • 🇫🇷 Französisch • 🇮🇹 Italienisch - Live-Vorschau verfügbar: Kokoro-Stimmen testen
Die Kokoro-Sprachmodelle gehören derzeit zu den hochwertigsten Open-Source-TTS-Lösungen, die heute verfügbar sind.
Wichtige Funktionen
- Vollständige Offline-Synthese: Keine Internetverbindung erforderlich
- Mehrere Synthesemodi:
- Reguläre Synthese: Erzeugt vollständiges Audio für den gesamten Text
- Streaming-Synthese: Verarbeitet Audio-Chunks in Echtzeit, während sie erzeugt werden
- Abbruchunterstützung: Unterbricht laufende Synthesevorgänge jederzeit
- Plattformübergreifende Kompatibilität: Funktioniert auf allen wichtigen Plattformen
- Blueprint- und C++-Unterstützung: Voller API-Zugriff in beiden Umgebungen
Installation
Um loszulegen, installieren Sie die Sprachmodelle über die Plugin-Einstellungen beim ersten Start. Nach der Installation können Sie das Plugin in Ihrem Projekt verwenden. Ausführliche Anweisungen finden Sie auf der Seite So verwenden Sie das Plugin.
Plugin-Details
Dieses Plugin bietet Echtzeit-Text-zu-Sprache-Synthese unter Verwendung der Bibliotheken Piper, Kokoro und ONNX Runtime. Das Plugin ermöglicht es Ihnen, mehrere Sprachmodelle über den Editor herunterzuladen und zu verwalten, die dann mit Ihrem Projekt verpackt werden können.
Die Kernfunktionalität besteht aus der Verarbeitung von Texteingaben und der Auswahl von Sprachmodellen für die Synthese. Einige Sprachmodelle unterstützen mehrere Sprecher – zum Beispiel enthält English LibriTTS über 900 verschiedene Sprecher, German Thorsten Emotional hat 7 Sprecher usw.
Die Ausgabe sind PCM-Audiodaten (im Float-Format) mit entsprechender Abtastrate und Kanalzahl. Diese Daten können auf zwei Arten verarbeitet werden:
- Reguläre Synthese: Erhalten Sie die vollständigen Audiodaten, wenn die Synthese abgeschlossen ist
- Streaming-Synthese: Erhalten Sie Audiodaten in Chunks, während sie generiert werden, und ermöglichen so eine Echtzeitverarbeitung
Das Umwandeln dieser Roh-Audiodaten in eine abspielbare Sound Wave erfordert normalerweise das Runtime Audio Importer-Plugin, das sowohl reguläre als auch Streaming-Wiedergabefunktionen bietet.
Zusätzliche Ressourcen
- Auf Fab erhalten
- Produkt-Website
- Demo herunterladen (Windows)
- Video-Tutorial (älteres Video)
- Plugin-Support & kundenspezifische Entwicklung: [email protected] (maßgeschneiderte Lösungen für Teams & Organisationen)