Aller au contenu principal

Aperçu

Documentation de Runtime Text To Speech

Runtime Text To Speech est un plugin permettant une synthèse vocale en temps réel, hors ligne et multiplateforme. Il prend en charge 41 langues, plus de 900 voix, et 190+ qualités vocales – avec désormais Kokoro 🚀, une famille de modèles vocaux open-source de pointe offrant une qualité studio. Le plugin est rapide, léger et idéal pour les jeux, applications et projets nécessitant une voix naturelle.

Actuellement, le plugin supporte les plateformes suivantes : Windows, Linux, Mac, Android (incluant Meta Quest), et iOS.

📹 Voir en Action
Regardez la Démo YouTube ou testez des échantillons vocaux génériques sur Piper Samples.

Kokoro

Le plugin intègre désormais les modèles vocaux Kokoro - des architectures TTS open-source de haute qualité récemment publiées sur Hugging Face.

  • 49 modèles haute qualité couvrant 8 langues :
    🇺🇸 Anglais (US) • 🇬🇧 Anglais (UK) • 🇨🇳 Chinois simplifié • 🇪🇸 Espagnol • 🇧🇷 Portugais • 🇮🇳 Hindi • 🇫🇷 Français • 🇮🇹 Italien
  • Prévisualisation disponible : Tester les voix Kokoro
Pourquoi Kokoro ?

Les modèles vocaux Kokoro font actuellement partie des solutions TTS open-source les plus qualitatives disponibles aujourd'hui.

Fonctionnalités Clés

  • Synthèse 100% hors ligne : Aucune connexion internet requise
  • Modes de synthèse multiples :
    • Synthèse standard : Génère l'audio complet pour le texte entier
    • Synthèse en streaming : Traite les segments audio en temps réel au fur et à mesure de leur génération
  • Annulation possible : Interrompre les opérations de synthèse à tout moment
  • Compatibilité multiplateforme : Fonctionne sur toutes les plateformes majeures
  • Support Blueprint et C++ : Accès complet à l'API dans les deux environnements

Installation

Pour commencer, installez les modèles vocaux via les paramètres du plugin au premier lancement. Après installation, vous pouvez utiliser le plugin dans votre projet. Pour des instructions détaillées, consultez la page Comment utiliser le plugin.

Détails du Plugin

Ce plugin fournit une synthèse vocale en temps réel en utilisant les bibliothèques Piper, Kokoro et ONNX Runtime. Il permet de télécharger et gérer plusieurs modèles vocaux via l'éditeur, qui peuvent ensuite être intégrés à votre projet.

La fonctionnalité principale consiste à traiter du texte en entrée et sélectionner un modèle vocal pour la synthèse. Certains modèles supportent plusieurs locuteurs - par exemple, English LibriTTS inclut plus de 900 locuteurs différents, German Thorsten Emotional en propose 7, etc.

Le résultat est des données audio PCM (au format float) avec leur fréquence d'échantillonnage et nombre de canaux correspondants. Ces données peuvent être traitées de deux manières :

  • Synthèse standard : Recevoir l'audio complet une fois la synthèse terminée
  • Synthèse en streaming : Recevoir l'audio par segments au fur et à mesure de leur génération, permettant un traitement en temps réel

Convertir ces données brutes en onde sonore jouable nécessite généralement le plugin Runtime Audio Importer, qui offre des capacités de lecture standard et en streaming.

Ressources Supplémentaires