Aperçu
Runtime Text To Speech est un plugin permettant une synthèse vocale en temps réel, hors ligne et multiplateforme. Il prend en charge 40 langues, plus de 900 voix, et 160+ qualités vocales – incluant désormais Kokoro 🚀, une famille de modèles vocaux open-source de pointe avec une qualité studio. Le plugin est rapide, léger et idéal pour les jeux, applications et projets nécessitant une voix naturelle.
Actuellement, le plugin est compatible avec les plateformes suivantes : Windows, Linux, Mac, Android (y compris Meta Quest), et iOS.
📹 Voir en action
Regardez la Démo YouTube ou testez des échantillons vocaux génériques sur Piper Samples.
Kokoro
Le plugin intègre désormais les modèles vocaux Kokoro – des architectures TTS open-source de haute qualité récemment publiées sur Hugging Face.
- 49 modèles haute qualité couvrant 8 langues :
🇺🇸 Anglais (US) • 🇬🇧 Anglais (UK) • 🇨🇳 Chinois simplifié • 🇪🇸 Espagnol • 🇧🇷 Portugais • 🇮🇳 Hindi • 🇫🇷 Français • 🇮🇹 Italien - Prévisualisation disponible : Tester les voix Kokoro
Les modèles vocaux Kokoro font actuellement partie des solutions TTS open-source les plus qualitatives disponibles.
Fonctionnalités clés
- Synthèse 100% hors ligne : Aucune connexion internet requise
- Plusieurs modes de synthèse :
- Synthèse standard : Génère l'audio complet pour tout le texte
- Synthèse en streaming : Traite les segments audio en temps réel au fur et à mesure de leur génération
- Annulation possible : Interrompre les opérations de synthèse à tout moment
- Compatibilité multiplateforme : Fonctionne sur toutes les plateformes majeures
- Support Blueprint et C++ : Accès complet à l'API dans les deux environnements
Installation
Pour commencer, installez les modèles vocaux via les paramètres du plugin au premier lancement. Après installation, vous pouvez utiliser le plugin dans votre projet. Pour des instructions détaillées, consultez la page Comment utiliser le plugin.
Détails du plugin
Ce plugin offre une synthèse vocale en temps réel grâce aux bibliothèques Piper, Kokoro, et ONNX Runtime. Il permet de télécharger et gérer plusieurs modèles vocaux via l'éditeur, qui peuvent ensuite être intégrés à votre projet.
La fonctionnalité principale repose sur le traitement de texte et la sélection du modèle vocal pour la synthèse. Certains modèles prennent en charge plusieurs locuteurs – par exemple, English LibriTTS inclut plus de 900 locuteurs différents, German Thorsten Emotional en propose 7, etc.
Le résultat est un flux audio PCM (au format float) avec son taux d'échantillonnage et nombre de canaux correspondants. Ces données peuvent être traitées de deux manières :
- Synthèse standard : Recevoir les données audio complètes une fois la synthèse terminée
- Synthèse en streaming : Recevoir les données audio par segments pendant leur génération, permettant un traitement en temps réel
Convertir ces données brutes en onde sonore jouable nécessite généralement le plugin Runtime Audio Importer, qui offre des capacités de lecture standard et en streaming.
Ressources supplémentaires
- Obtenir sur Fab
- Site officiel
- Télécharger la démo (Windows)
- Serveur Discord d'assistance
- Tutoriel vidéo
- Développement sur mesure : [email protected] (solutions adaptées pour équipes & organisations)