Panoramica

Runtime Text To Speech è un plugin che consente la sintesi vocale in tempo reale, offline e multipiattaforma. Supporta 51 lingue, oltre 2800 voci e 75 qualità vocali, e ora include Kokoro, una famiglia di modelli vocali open-source con output di qualità da studio. Il plugin è veloce, leggero e ideale per giochi, app e progetti che richiedono un parlato dal suono naturale.

Attualmente il plugin supporta le seguenti piattaforme: Windows, Linux, Mac, Android (incluso Meta Quest) e iOS.

📹 Guardalo in Azione
Guarda la Demo su YouTube (video precedente) oppure prova campioni vocali generici su Piper Samples.

Kokoro

Il plugin supporta anche i modelli vocali Kokoro (incluso Kokoro v1.1) - architetture TTS open-source di alta qualità pubblicate di recente su Hugging Face.

151 modelli di alta qualità in 8 lingue:
🇺🇸 Inglese (US) • 🇬🇧 Inglese (UK) • 🇨🇳 Cinese semplificato • 🇪🇸 Spagnolo • 🇧🇷 Portoghese • 🇮🇳 Hindi • 🇫🇷 Francese • 🇮🇹 Italiano
Anteprima dal vivo disponibile: Prova le voci Kokoro

Perché Kokoro?

I modelli vocali Kokoro sono attualmente tra le soluzioni TTS open-source di più alta qualità disponibili oggi.

Caratteristiche Principali

Sintesi completamente offline: Nessuna connessione a Internet richiesta
Modalità di sintesi multiple:
- Sintesi regolare: Genera audio completo per l'intero testo
- Sintesi in streaming: Elabora blocchi audio in tempo reale man mano che vengono generati
Supporto per l'annullamento: Interrompi in qualsiasi momento le operazioni di sintesi in corso
Compatibilità multipiattaforma: Funziona su tutte le principali piattaforme
Supporto per Blueprint e C++: Accesso API completo in entrambi gli ambienti

Installazione

Per iniziare, installa i modelli vocali tramite le impostazioni del plugin al primo avvio. Dopo l'installazione, puoi iniziare a utilizzare il plugin nel tuo progetto. Per istruzioni dettagliate, consulta la pagina Come usare il plugin.

Dettagli del Plugin

Questo plugin fornisce la sintesi vocale in tempo reale utilizzando le librerie Piper, Kokoro e ONNX Runtime. Il plugin consente di scaricare e gestire più modelli vocali tramite l'editor, che possono poi essere impacchettati con il progetto.

La funzionalità principale consiste nell'elaborazione dell'input di testo e nella selezione del modello vocale per la sintesi. Alcuni modelli vocali supportano più parlanti - per esempio, English LibriTTS include oltre 900 parlanti diversi, German Thorsten Emotional ha 7 parlanti, ecc.

L'output è costituito da dati audio PCM (in formato float) con la corrispondente frequenza di campionamento e numero di canali. Questi dati possono essere elaborati in due modi:

Sintesi regolare: Ricevi i dati audio completi quando la sintesi è terminata
Sintesi in streaming: Ricevi i dati audio in blocchi man mano che vengono generati, consentendo l'elaborazione in tempo reale

La conversione di questi dati audio grezzi in un'onda sonora riproducibile richiede solitamente il plugin Runtime Audio Importer, che fornisce capacità di riproduzione sia regolare che in streaming.

Risorse Aggiuntive

Ottienilo su Fab
Sito web del prodotto
Scarica Demo (Windows)
Video tutorial (video precedente)
Supporto Plugin e Sviluppo Personalizzato: [email protected] (soluzioni su misura per team e organizzazioni)

Join our Discord

online · support

Kokoro​

Caratteristiche Principali​

Installazione​

Dettagli del Plugin​

Risorse Aggiuntive​

Kokoro

Caratteristiche Principali

Installazione

Dettagli del Plugin

Risorse Aggiuntive