Passa al contenuto principale

Panoramica

Runtime Text To Speech Documentation

Runtime Text To Speech è un plugin che consente la sintesi vocale in tempo reale, offline e multipiattaforma. Supporta 51 lingue, oltre 2800 voci e 75 qualità vocali, e ora include Kokoro, una famiglia di modelli vocali open-source con output di qualità da studio. Il plugin è veloce, leggero e ideale per giochi, app e progetti che richiedono un parlato dal suono naturale.

Attualmente il plugin supporta le seguenti piattaforme: Windows, Linux, Mac, Android (incluso Meta Quest) e iOS.

📹 Guardalo in Azione
Guarda la Demo su YouTube (video precedente) oppure prova campioni vocali generici su Piper Samples.

Kokoro

Il plugin supporta anche i modelli vocali Kokoro (incluso Kokoro v1.1) - architetture TTS open-source di alta qualità pubblicate di recente su Hugging Face.

  • 151 modelli di alta qualità in 8 lingue:
    🇺🇸 Inglese (US) • 🇬🇧 Inglese (UK) • 🇨🇳 Cinese semplificato • 🇪🇸 Spagnolo • 🇧🇷 Portoghese • 🇮🇳 Hindi • 🇫🇷 Francese • 🇮🇹 Italiano
  • Anteprima dal vivo disponibile: Prova le voci Kokoro
Perché Kokoro?

I modelli vocali Kokoro sono attualmente tra le soluzioni TTS open-source di più alta qualità disponibili oggi.

Caratteristiche Principali

  • Sintesi completamente offline: Nessuna connessione a Internet richiesta
  • Modalità di sintesi multiple:
    • Sintesi regolare: Genera audio completo per l'intero testo
    • Sintesi in streaming: Elabora blocchi audio in tempo reale man mano che vengono generati
  • Supporto per l'annullamento: Interrompi in qualsiasi momento le operazioni di sintesi in corso
  • Compatibilità multipiattaforma: Funziona su tutte le principali piattaforme
  • Supporto per Blueprint e C++: Accesso API completo in entrambi gli ambienti

Installazione

Per iniziare, installa i modelli vocali tramite le impostazioni del plugin al primo avvio. Dopo l'installazione, puoi iniziare a utilizzare il plugin nel tuo progetto. Per istruzioni dettagliate, consulta la pagina Come usare il plugin.

Dettagli del Plugin

Questo plugin fornisce la sintesi vocale in tempo reale utilizzando le librerie Piper, Kokoro e ONNX Runtime. Il plugin consente di scaricare e gestire più modelli vocali tramite l'editor, che possono poi essere impacchettati con il progetto.

La funzionalità principale consiste nell'elaborazione dell'input di testo e nella selezione del modello vocale per la sintesi. Alcuni modelli vocali supportano più parlanti - per esempio, English LibriTTS include oltre 900 parlanti diversi, German Thorsten Emotional ha 7 parlanti, ecc.

L'output è costituito da dati audio PCM (in formato float) con la corrispondente frequenza di campionamento e numero di canali. Questi dati possono essere elaborati in due modi:

  • Sintesi regolare: Ricevi i dati audio completi quando la sintesi è terminata
  • Sintesi in streaming: Ricevi i dati audio in blocchi man mano che vengono generati, consentendo l'elaborazione in tempo reale

La conversione di questi dati audio grezzi in un'onda sonora riproducibile richiede solitamente il plugin Runtime Audio Importer, che fornisce capacità di riproduzione sia regolare che in streaming.

Risorse Aggiuntive

Join our Discord
online · support