Aller au contenu principal

Vue d'ensemble

Documentation Runtime Text To Speech

Runtime Text To Speech est un plugin qui permet la synthèse vocale en temps réel, hors ligne et multiplateforme. Il prend en charge 45 langues, plus de 900 voix, et 140+ qualités vocales – incluant désormais Kokoro 🚀, une famille de modèles vocaux open-source de pointe avec une qualité studio. Le plugin est rapide, léger et idéal pour les jeux, applications et projets nécessitant une parole naturelle.

Actuellement, le plugin prend en charge les plateformes suivantes : Windows, Linux, Mac, Android (y compris Meta Quest), et iOS.

📹 Voir en Action
Regardez la Démo YouTube ou testez des échantillons vocaux génériques sur Piper Samples.

Kokoro

Le plugin prend également en charge les modèles vocaux Kokoro (y compris Kokoro v1.1) - des architectures TTS open-source de haute qualité récemment publiées sur Hugging Face.

  • 152 modèles de haute qualité couvrant 8 langues :
    🇺🇸 Anglais (US) • 🇬🇧 Anglais (UK) • 🇨🇳 Chinois simplifié • 🇪🇸 Espagnol • 🇧🇷 Portugais • 🇮🇳 Hindi • 🇫🇷 Français • 🇮🇹 Italien
  • Aperçu en direct disponible : Tester les voix Kokoro
Pourquoi Kokoro ?

Les modèles vocaux Kokoro sont actuellement parmi les solutions TTS open-source de la plus haute qualité disponibles aujourd'hui.

Fonctionnalités Clés

  • Synthèse complètement hors ligne : Aucune connexion internet requise
  • Modes de synthèse multiples :
    • Synthèse régulière : Générer l'audio complet pour tout le texte
    • Synthèse en streaming : Traiter les morceaux audio en temps réel au fur et à mesure de leur génération
  • Prise en charge de l'annulation : Interrompre les opérations de synthèse en cours à tout moment
  • Compatibilité multiplateforme : Fonctionne sur toutes les principales plateformes
  • Prise en charge Blueprint et C++ : Accès complet à l'API dans les deux environnements

Installation

Pour commencer, installez les modèles vocaux via les paramètres du plugin lors du premier lancement. Après l'installation, vous pouvez commencer à utiliser le plugin dans votre projet. Pour des instructions détaillées, reportez-vous à la page Comment utiliser le plugin.

Détails du Plugin

Ce plugin fournit une synthèse vocale en temps réel en utilisant les bibliothèques Piper, Kokoro, et ONNX Runtime. Le plugin vous permet de télécharger et gérer plusieurs modèles vocaux via l'éditeur, qui peuvent ensuite être intégrés à votre projet.

La fonctionnalité principale consiste en le traitement de l'entrée texte et la sélection du modèle vocal pour la synthèse. Certains modèles vocaux prennent en charge plusieurs locuteurs - par exemple, English LibriTTS inclut plus de 900 locuteurs différents, German Thorsten Emotional en a 7, etc.

La sortie est constituée de données audio PCM (au format float) avec le taux d'échantillonnage et le nombre de canaux correspondants. Ces données peuvent être traitées de deux manières :

  • Synthèse régulière : Recevoir les données audio complètes lorsque la synthèse est terminée
  • Synthèse en streaming : Recevoir les données audio par morceaux au fur et à mesure de leur génération, permettant un traitement en temps réel

Convertir ces données audio brutes en une onde sonore jouable nécessite généralement le plugin Runtime Audio Importer, qui fournit des capacités de lecture à la fois régulières et en streaming.

Ressources Supplémentaires