Aperçu

Runtime Text To Speech est un plugin qui permet une synthèse vocale en temps réel, hors ligne et multiplateforme. Il prend en charge 51 langues, plus de 2800 voix et 75 qualités vocales, et intègre désormais Kokoro, une famille de modèles vocaux open source avec une qualité de studio. Le plugin est rapide, léger et idéal pour les jeux, applications et projets nécessitant une parole naturelle.
Actuellement, le plugin prend en charge les plateformes suivantes : Windows, Linux, Mac, Android (y compris Meta Quest) et iOS.
📹 Voir en action
Regardez la Démo YouTube (ancienne vidéo) ou testez des échantillons vocaux génériques sur Piper Samples.
Kokoro
Le plugin prend également en charge les modèles vocaux Kokoro (y compris Kokoro v1.1) - des architectures TTS open source de haute qualité récemment publiées sur Hugging Face.
- 151 modèles de haute qualité dans 8 langues :
🇺🇸 Anglais (États-Unis) • 🇬🇧 Anglais (Royaume-Uni) • 🇨🇳 Chinois simplifié • 🇪🇸 Espagnol • 🇧🇷 Portugais • 🇮🇳 Hindi • 🇫🇷 Français • 🇮🇹 Italien - Aperçu en direct disponible : Tester les voix Kokoro
Les modèles vocaux Kokoro font actuellement partie des solutions TTS open source de la plus haute qualité disponible aujourd'hui.
Caractéristiques principales
- Synthèse entièrement hors ligne : Aucune connexion Internet requise
- Plusieurs modes de synthèse :
- Synthèse régulière : Générer l'audio complet pour l'intégralité du texte
- Synthèse en streaming : Traiter les segments audio en temps réel à mesure qu'ils sont générés
- Prise en charge de l'annulation : Interrompre les opérations de synthèse en cours à tout moment
- Compatibilité multiplateforme : Fonctionne sur toutes les plateformes principales
- Support de Blueprint et C++ : Accès complet à l'API dans les deux environnements
Installation
Pour commencer, installez les modèles vocaux via les paramètres du plugin lors du premier lancement. Une fois l'installation terminée, vous pouvez commencer à utiliser le plugin dans votre projet. Pour des instructions détaillées, reportez-vous à la page Comment utiliser le plugin.
Détails du plugin
Ce plugin fournit une synthèse vocale en temps réel utilisant les bibliothèques Piper, Kokoro et ONNX Runtime. Le plugin vous permet de télécharger et de gérer plusieurs modèles vocaux via l'éditeur, qui peuvent ensuite être empaquetés avec votre projet.
La fonctionnalité principale consiste en le traitement de l'entrée texte et la sélection du modèle vocal pour la synthèse. Certains modèles vocaux prennent en charge plusieurs locuteurs - par exemple, English LibriTTS inclut plus de 900 locuteurs différents, German Thorsten Emotional en a 7, etc.
La sortie est constituée de données audio PCM (au format float) avec la fréquence d'échantillonnage et le nombre de canaux correspondants. Ces données peuvent être traitées de deux manières :
- Synthèse régulière : Recevoir les données audio complètes une fois la synthèse terminée
- Synthèse en streaming : Recevoir les données audio par segments à mesure qu'ils sont générés, permettant un traitement en temps réel
La conversion de ces données audio brutes en une onde sonore lisible nécessite généralement le plugin Runtime Audio Importer, qui offre des capacités de lecture à la fois régulière et en streaming.
Ressources supplémentaires
- Obtenez-le sur Fab
- Site web du produit
- Télécharger la démo (Windows)
- Tutoriel vidéo (ancienne vidéo)
- Support du plugin & développement personnalisé : [email protected] (solutions adaptées aux équipes et organisations)