Übersicht

Runtime Text To Speech ist ein Plugin, das Echtzeit-, Offline- und plattformübergreifende Text-zu-Sprache-Synthese ermöglicht. Es unterstützt 51 Sprachen, über 2800 Stimmen und 75 Stimmqualitäten und verfügt nun über Kokoro, eine Open-Source-Stimmenmodellfamilie mit Studioqualität. Das Plugin ist schnell, leichtgewichtig und ideal für Spiele, Apps und Projekte, die natürlich klingende Sprache benötigen.

Derzeit unterstützt das Plugin die folgenden Plattformen: Windows, Linux, Mac, Android (einschließlich Meta Quest) und iOS.

📹 In Aktion sehen
Sehen Sie sich die YouTube-Demo an (älteres Video) oder testen Sie allgemeine Sprachbeispiele auf Piper Samples.

Kokoro

Das Plugin unterstützt auch Kokoro-Sprachmodelle (einschließlich Kokoro v1.1) – hochwertige Open-Source-TTS-Architekturen, die kürzlich auf Hugging Face veröffentlicht wurden.

151 hochwertige Modelle in 8 Sprachen:
🇺🇸 Englisch (US) • 🇬🇧 Englisch (UK) • 🇨🇳 Vereinfachtes Chinesisch • 🇪🇸 Spanisch • 🇧🇷 Portugiesisch • 🇮🇳 Hindi • 🇫🇷 Französisch • 🇮🇹 Italienisch
Live-Vorschau verfügbar: Kokoro-Stimmen testen

Warum Kokoro?

Die Kokoro-Sprachmodelle gehören derzeit zu den hochwertigsten Open-Source-TTS-Lösungen, die heute verfügbar sind.

Wichtige Funktionen

Vollständige Offline-Synthese: Keine Internetverbindung erforderlich
Mehrere Synthesemodi:
- Reguläre Synthese: Erzeugt vollständiges Audio für den gesamten Text
- Streaming-Synthese: Verarbeitet Audio-Chunks in Echtzeit, während sie erzeugt werden
Abbruchunterstützung: Unterbricht laufende Synthesevorgänge jederzeit
Plattformübergreifende Kompatibilität: Funktioniert auf allen wichtigen Plattformen
Blueprint- und C++-Unterstützung: Voller API-Zugriff in beiden Umgebungen

Installation

Um loszulegen, installieren Sie die Sprachmodelle über die Plugin-Einstellungen beim ersten Start. Nach der Installation können Sie das Plugin in Ihrem Projekt verwenden. Ausführliche Anweisungen finden Sie auf der Seite So verwenden Sie das Plugin.

Plugin-Details

Dieses Plugin bietet Echtzeit-Text-zu-Sprache-Synthese unter Verwendung der Bibliotheken Piper, Kokoro und ONNX Runtime. Das Plugin ermöglicht es Ihnen, mehrere Sprachmodelle über den Editor herunterzuladen und zu verwalten, die dann mit Ihrem Projekt verpackt werden können.

Die Kernfunktionalität besteht aus der Verarbeitung von Texteingaben und der Auswahl von Sprachmodellen für die Synthese. Einige Sprachmodelle unterstützen mehrere Sprecher – zum Beispiel enthält English LibriTTS über 900 verschiedene Sprecher, German Thorsten Emotional hat 7 Sprecher usw.

Die Ausgabe sind PCM-Audiodaten (im Float-Format) mit entsprechender Abtastrate und Kanalzahl. Diese Daten können auf zwei Arten verarbeitet werden:

Reguläre Synthese: Erhalten Sie die vollständigen Audiodaten, wenn die Synthese abgeschlossen ist
Streaming-Synthese: Erhalten Sie Audiodaten in Chunks, während sie generiert werden, und ermöglichen so eine Echtzeitverarbeitung

Das Umwandeln dieser Roh-Audiodaten in eine abspielbare Sound Wave erfordert normalerweise das Runtime Audio Importer-Plugin, das sowohl reguläre als auch Streaming-Wiedergabefunktionen bietet.

Zusätzliche Ressourcen

Auf Fab erhalten
Produkt-Website
Demo herunterladen (Windows)
Video-Tutorial (älteres Video)
Plugin-Support & kundenspezifische Entwicklung: [email protected] (maßgeschneiderte Lösungen für Teams & Organisationen)

Join our Discord

online · support

Kokoro​

Wichtige Funktionen​

Installation​

Plugin-Details​

Zusätzliche Ressourcen​

Kokoro

Wichtige Funktionen

Installation

Plugin-Details

Zusätzliche Ressourcen