Passa al contenuto principale

Panoramica

Documentazione Runtime Text To Speech

Runtime Text To Speech è un plugin che abilita la sintesi vocale da testo in tempo reale, offline e multipiattaforma. Supporta 44 lingue, oltre 900 voci e 200+ qualità vocali – ora con Kokoro 🚀, una famiglia di modelli vocali open-source all'avanguardia con output di qualità da studio. Il plugin è veloce, leggero e ideale per giochi, app e progetti che richiedono un parlato dal suono naturale.

Attualmente, il plugin supporta le seguenti piattaforme: Windows, Linux, Mac, Android (incluso Meta Quest) e iOS.

📹 Guardalo in Azione
Guarda la Demo su YouTube o testa campioni vocali generici su Piper Samples.

Kokoro

Il plugin supporta anche i modelli vocali Kokoro - architetture TTS open-source di alta qualità recentemente pubblicate su Hugging Face.

  • 49 modelli di alta qualità in 8 lingue:
    🇺🇸 Inglese (US) • 🇬🇧 Inglese (UK) • 🇨🇳 Cinese semplificato • 🇪🇸 Spagnolo • 🇧🇷 Portoghese • 🇮🇳 Hindi • 🇫🇷 Francese • 🇮🇹 Italiano
  • Anteprima live disponibile: Testa le Voci Kokoro
Perché Kokoro?

I modelli vocali Kokoro sono attualmente tra le soluzioni TTS open-source di qualità più alta disponibili oggi.

Caratteristiche Principali

  • Sintesi completamente offline: Nessuna connessione internet richiesta
  • Modalità di sintesi multiple:
    • Sintesi regolare: Genera l'audio completo per l'intero testo
    • Sintesi in streaming: Elabora porzioni di audio in tempo reale man mano che vengono generate
  • Supporto alla cancellazione: Interrompi le operazioni di sintesi in corso in qualsiasi momento
  • Compatibilità multipiattaforma: Funziona su tutte le principali piattaforme
  • Supporto Blueprint e C++: Accesso API completo in entrambi gli ambienti

Installazione

Per iniziare, installa i modelli vocali tramite le impostazioni del plugin al primo avvio. Dopo l'installazione, puoi iniziare a usare il plugin nel tuo progetto. Per istruzioni dettagliate, consulta la pagina Come usare il plugin.

Dettagli del Plugin

Questo plugin fornisce sintesi vocale da testo in tempo reale utilizzando le librerie Piper, Kokoro e ONNX Runtime. Il plugin ti consente di scaricare e gestire più modelli vocali tramite l'editor, che possono poi essere inclusi nel pacchetto del tuo progetto.

La funzionalità principale consiste nell'elaborazione dell'input testuale e nella selezione del modello vocale per la sintesi. Alcuni modelli vocali supportano più parlanti - ad esempio, English LibriTTS include oltre 900 parlanti diversi, German Thorsten Emotional ha 7 parlanti, ecc. L'output sono dati audio PCM (in formato float) con la corrispondente frequenza di campionamento e numero di canali. Questi dati possono essere elaborati in due modi:

  • Sintesi regolare: Ricevere i dati audio completi quando la sintesi è terminata
  • Sintesi in streaming: Ricevere i dati audio in blocchi man mano che vengono generati, consentendo un'elaborazione in tempo reale

Convertire questi dati audio grezzi in un'onda sonora riproducibile richiede solitamente il plugin Runtime Audio Importer, che fornisce capacità di riproduzione sia regolari che in streaming.

Risorse Aggiuntive