Übersicht
Runtime Text To Speech ist ein Plugin, das Echtzeit-, Offline- und plattformübergreifende Sprachsynthese ermöglicht. Es unterstützt 40 Sprachen, über 900 Stimmen und 160+ Sprachqualitäten – jetzt mit Kokoro 🚀, einer bahnbrechenden Open-Source-Stimmenmodellfamilie mit Studioqualität. Das Plugin ist schnell, leichtgewichtig und ideal für Spiele, Apps und Projekte, die natürlich klingende Sprache benötigen.
Aktuell unterstützt das Plugin folgende Plattformen: Windows, Linux, Mac, Android (inklusive Meta Quest) und iOS.
📹 Live in Aktion
Sehen Sie sich die YouTube-Demo an oder testen Sie generische Sprachbeispiele unter Piper Samples.
Kokoro
Das Plugin implementiert nun Kokoro-Stimmenmodelle – hochwertige Open-Source-TTS-Architekturen, die kürzlich auf Hugging Face veröffentlicht wurden.
- 49 hochwertige Modelle in 8 Sprachen:
🇺🇸 Englisch (US) • 🇬🇧 Englisch (UK) • 🇨🇳 Vereinfachtes Chinesisch • 🇪🇸 Spanisch • 🇧🇷 Portugiesisch • 🇮🇳 Hindi • 🇫🇷 Französisch • 🇮🇹 Italienisch - Live-Vorschau verfügbar: Kokoro-Stimmen testen
Die Kokoro-Stimmenmodelle gehören aktuell zu den hochwertigsten Open-Source-TTS-Lösungen auf dem Markt.
Hauptmerkmale
- Vollständig offline Synthese: Keine Internetverbindung erforderlich
- Mehrere Synthesemodi:
- Reguläre Synthese: Generiert vollständiges Audio für den gesamten Text
- Streaming-Synthese: Verarbeitet Audiochunks in Echtzeit während der Generierung
- Abbruchunterstützung: Laufende Syntheseoperationen jederzeit unterbrechen
- Plattformübergreifende Kompatibilität: Funktioniert auf allen gängigen Plattformen
- Blueprint- und C++-Unterstützung: Vollständiger API-Zugriff in beiden Umgebungen
Installation
Um zu beginnen, installieren Sie Stimmenmodelle über die Plugin-Einstellungen beim ersten Start. Nach der Installation können Sie das Plugin in Ihrem Projekt verwenden. Detaillierte Anweisungen finden Sie auf der Seite Wie man das Plugin verwendet.
Plugin-Details
Dieses Plugin bietet Echtzeit-Text-zu-Sprache-Synthese mit den Bibliotheken Piper, Kokoro und ONNX Runtime. Das Plugin ermöglicht das Herunterladen und Verwalten mehrerer Stimmenmodelle über den Editor, die dann mit Ihrem Projekt gebündelt werden können.
Die Kernfunktionalität besteht aus der Verarbeitung von Texteingaben und der Auswahl von Stimmenmodellen für die Synthese. Einige Stimmenmodelle unterstützen mehrere Sprecher – beispielsweise enthält English LibriTTS über 900 verschiedene Sprecher, German Thorsten Emotional hat 7 Sprecher usw.
Die Ausgabe sind PCM-Audiodaten (im Float-Format) mit entsprechender Abtastrate und Kanälen. Diese Daten können auf zwei Arten verarbeitet werden:
- Reguläre Synthese: Erhalten Sie die vollständigen Audiodaten nach Abschluss der Synthese
- Streaming-Synthese: Erhalten Sie Audiodaten in Chunks während der Generierung, was Echtzeitverarbeitung ermöglicht
Die Umwandlung dieser Rohaudiodaten in eine abspielbare Schallwelle erfordert normalerweise das Runtime Audio Importer-Plugin, das sowohl reguläre als auch Streaming-Wiedergabefähigkeiten bietet.
Zusätzliche Ressourcen
- Auf Fab erhältlich
- Produktwebsite
- Demo herunterladen (Windows)
- Discord-Supportserver
- Video-Tutorial
- Individuelle Entwicklung: [email protected] (maßgeschneiderte Lösungen für Teams & Organisationen)