Aperçu

Runtime Text To Speech est un plugin qui permet la Runtime Text To Speech, hors ligne et multiplateforme. Il prend en charge 44 langues, plus de 900 voix, et 200+ qualités vocales – incluant désormais Kokoro 🚀, une famille de modèles vocaux open-source de pointe avec une qualité studio. Le plugin est rapide, léger et idéal pour les jeux, applications et projets nécessitant une parole naturelle.
Actuellement, le plugin prend en charge les plateformes suivantes : Windows, Linux, Mac, Android (y compris Meta Quest), et iOS.
📹 Voir en Action
Regardez la Démo YouTube ou testez des échantillons vocaux génériques sur Piper Samples.
Kokoro
Le plugin prend également en charge les modèles vocaux Kokoro - des architectures TTS open-source de haute qualité récemment publiées sur Hugging Face.
- 49 modèles de haute qualité couvrant 8 langues :
🇺🇸 Anglais (US) • 🇬🇧 Anglais (UK) • 🇨🇳 Chinois simplifié • 🇪🇸 Espagnol • 🇧🇷 Portugais • 🇮🇳 Hindi • 🇫🇷 Français • 🇮🇹 Italien - Aperçu en direct disponible : Tester les Voix Kokoro
Les modèles vocaux Kokoro font actuellement partie des solutions TTS open-source de la plus haute qualité disponibles aujourd'hui.
Fonctionnalités Clés
- Synthèse complètement hors ligne : Aucune connexion internet requise
- Modes de synthèse multiples :
- Synthèse régulière : Générer l'audio complet pour tout le texte
- Synthèse en streaming : Traiter les fragments audio en temps réel au fur et à mesure de leur génération
- Prise en charge de l'annulation : Interrompre les opérations de synthèse en cours à tout moment
- Compatibilité multiplateforme : Fonctionne sur toutes les principales plateformes
- Prise en charge Blueprint et C++ : Accès complet à l'API dans les deux environnements
Installation
Pour commencer, installez les modèles vocaux via les paramètres du plugin lors du premier lancement. Après l'installation, vous pouvez commencer à utiliser le plugin dans votre projet. Pour des instructions détaillées, reportez-vous à la page Comment utiliser le plugin.
Détails du Plugin
Ce plugin fournit une Runtime Text To Speech en utilisant les bibliothèques Piper, Kokoro, et ONNX Runtime. Le plugin vous permet de télécharger et de gérer plusieurs modèles vocaux via l'éditeur, qui peuvent ensuite être intégrés à votre projet.
La fonctionnalité principale consiste en le traitement de l'entrée texte et la sélection du modèle vocal pour la synthèse. Certains modèles vocaux prennent en charge plusieurs locuteurs - par exemple, English LibriTTS inclut plus de 900 locuteurs différents, German Thorsten Emotional en a 7, etc. La sortie est constituée de données audio PCM (au format float) avec un taux d'échantillonnage et un nombre de canaux correspondants. Ces données peuvent être traitées de deux manières :
- Synthèse standard : Recevoir l'intégralité des données audio une fois la synthèse terminée
- Synthèse en streaming : Recevoir les données audio par morceaux au fur et à mesure de leur génération, permettant un traitement en temps réel
La conversion de ces données audio brutes en une onde sonore jouable nécessite généralement le plugin Runtime Audio Importer, qui offre des capacités de lecture à la fois standard et en streaming.
Ressources supplémentaires
- Obtenez-le sur Fab
- Site web du produit
- Télécharger la démo (Windows)
- Serveur d'assistance Discord
- Tutoriel vidéo
- Support du plugin & Développement sur mesure : [email protected] (solutions adaptées pour les équipes et organisations)