Panoramica
Runtime Text To Speech è un plugin che abilita la Runtime Text To Speech, offline e multipiattaforma. Supporta 41 lingue, oltre 900 voci e 190+ qualità vocali – ora con Kokoro 🚀, una famiglia di modelli vocali open-source all'avanguardia con un output di qualità da studio. Il plugin è veloce, leggero e ideale per giochi, app e progetti che richiedono una voce dal suono naturale.
Attualmente, il plugin supporta le seguenti piattaforme: Windows, Linux, Mac, Android (incluso Meta Quest) e iOS.
📹 Guardalo in Azione
Guarda la Demo su YouTube o testa campioni vocali generici su Piper Samples.
Kokoro
Il plugin implementa ora i modelli vocali Kokoro - architetture TTS open-source di alta qualità recentemente pubblicate su Hugging Face.
- 49 modelli di alta qualità in 8 lingue:
🇺🇸 Inglese (US) • 🇬🇧 Inglese (UK) • 🇨🇳 Cinese semplificato • 🇪🇸 Spagnolo • 🇧🇷 Portoghese • 🇮🇳 Hindi • 🇫🇷 Francese • 🇮🇹 Italiano - Anteprima live disponibile: Testa le Voci Kokoro
I modelli vocali Kokoro sono attualmente tra le soluzioni TTS open-source di qualità più alta disponibili oggi.
Caratteristiche Principali
- Sintesi completamente offline: Nessuna connessione internet richiesta
- Modalità di sintesi multiple:
- Sintesi regolare: Genera l'audio completo per l'intero testo
- Sintesi in streaming: Elabora i chunk audio in tempo reale man mano che vengono generati
- Supporto alla cancellazione: Interrompi le operazioni di sintesi in corso in qualsiasi momento
- Compatibilità multipiattaforma: Funziona su tutte le piattaforme principali
- Supporto per Blueprint e C++: Accesso completo all'API in entrambi gli ambienti
Installazione
Per iniziare, installa i modelli vocali tramite le impostazioni del plugin al primo avvio. Dopo l'installazione, puoi iniziare a utilizzare il plugin nel tuo progetto. Per istruzioni dettagliate, consulta la pagina Come usare il plugin.
Dettagli del Plugin
Questo plugin fornisce la Runtime Text To Speech utilizzando le librerie Piper, Kokoro e ONNX Runtime. Il plugin ti consente di scaricare e gestire più modelli vocali tramite l'editor, che possono poi essere inclusi nel pacchetto del tuo progetto.
La funzionalità principale consiste nell'elaborazione dell'input di testo e nella selezione del modello vocale per la sintesi. Alcuni modelli vocali supportano più parlanti - ad esempio, English LibriTTS include oltre 900 parlanti diversi, German Thorsten Emotional ha 7 parlanti, ecc. L'output sono dati audio PCM (in formato float) con il corrispondente sample rate e numero di canali. Questi dati possono essere processati in due modi:
- Sintesi regolare: Ricevere i dati audio completi quando la sintesi è terminata
- Sintesi in streaming: Ricevere i dati audio in chunk man mano che vengono generati, permettendo un processing in tempo reale
Convertire questi dati audio grezzi in un'onda sonora riproducibile richiede solitamente il plugin Runtime Audio Importer, che fornisce sia capacità di riproduzione regolare che in streaming.
Risorse Aggiuntive
- Acquistalo su Fab
- Sito web del prodotto
- Scarica la Demo (Windows)
- Server Discord di supporto
- Tutorial video
- Sviluppo Personalizzato: [email protected] (soluzioni su misura per team e organizzazioni)