Panoramica

Runtime Text To Speech è un plugin che abilita la sintesi vocale da testo in tempo reale, offline e cross-platform. Supporta 45 lingue, oltre 900 voci e 140+ qualità vocali – ora con Kokoro 🚀, una famiglia di modelli vocali open-source all'avanguardia con output di qualità da studio. Il plugin è veloce, leggero e ideale per giochi, app e progetti che richiedono un parlato dal suono naturale.
Attualmente, il plugin supporta le seguenti piattaforme: Windows, Linux, Mac, Android (incluso Meta Quest) e iOS.
📹 Guardalo in Azione
Guarda la Demo su YouTube o testa campioni vocali generici su Piper Samples.
Kokoro
Il plugin supporta anche i modelli vocali Kokoro (incluso Kokoro v1.1) - architetture TTS open-source di alta qualità recentemente pubblicate su Hugging Face.
- 152 modelli di alta qualità in 8 lingue:
🇺🇸 Inglese (US) • 🇬🇧 Inglese (UK) • 🇨🇳 Cinese semplificato • 🇪🇸 Spagnolo • 🇧🇷 Portoghese • 🇮🇳 Hindi • 🇫🇷 Francese • 🇮🇹 Italiano - Anteprima live disponibile: Testa le Voci Kokoro
I modelli vocali Kokoro sono attualmente tra le soluzioni TTS open-source di qualità più alta disponibili oggi.
Caratteristiche Principali
- Sintesi completamente offline: Nessuna connessione internet richiesta
- Modalità di sintesi multiple:
- Sintesi regolare: Genera l'audio completo per l'intero testo
- Sintesi in streaming: Elabora i chunk audio in tempo reale man mano che vengono generati
- Supporto alla cancellazione: Interrompi le operazioni di sintesi in corso in qualsiasi momento
- Compatibilità cross-platform: Funziona su tutte le principali piattaforme
- Supporto Blueprint e C++: Accesso completo alle API in entrambi gli ambienti
Installazione
Per iniziare, installa i modelli vocali tramite le impostazioni del plugin al primo avvio. Dopo l'installazione, puoi iniziare a usare il plugin nel tuo progetto. Per istruzioni dettagliate, consulta la pagina Come usare il plugin.
Dettagli del Plugin
Questo plugin fornisce sintesi vocale da testo in tempo reale utilizzando le librerie Piper, Kokoro e ONNX Runtime. Il plugin ti consente di scaricare e gestire più modelli vocali tramite l'editor, che possono poi essere inclusi nel pacchetto del tuo progetto.
La funzionalità principale consiste nell'elaborazione dell'input di testo e nella selezione del modello vocale per la sintesi. Alcuni modelli vocali supportano più parlanti - ad esempio, English LibriTTS include oltre 900 parlanti diversi, German Thorsten Emotional ha 7 parlanti, ecc.
L'output sono dati audio PCM (in formato float) con la corrispondente frequenza di campionamento e numero di canali. Questi dati possono essere elaborati in due modi:
- Sintesi regolare: Ricevi i dati audio completi quando la sintesi è terminata
- Sintesi in streaming: Ricevi i dati audio a chunk man mano che vengono generati, consentendo un'elaborazione in tempo reale
Convertire questi dati audio grezzi in un'onda sonora riproducibile di solito richiede il plugin Runtime Audio Importer, che fornisce capacità di riproduzione sia regolari che in streaming.
Risorse Aggiuntive
- Acquistalo su Fab
- Sito web del prodotto
- Scarica Demo (Windows)
- Server di supporto Discord
- Tutorial video
- Supporto Plugin & Sviluppo Personalizzato: [email protected] (soluzioni su misura per team e organizzazioni)