Aller au contenu principal

Aperçu

Runtime Text To Speech Documentation

Runtime Text To Speech est un plug-in qui permet la synthèse vocale en temps réel, hors ligne et multiplateforme. Il prend en charge 51 langues, plus de 2800 voix et 75 qualités vocales, et propose désormais Kokoro, une famille de modèles vocaux open-source offrant une qualité de studio. Le plug-in est rapide, léger et idéal pour les jeux, applications et projets nécessitant une parole naturelle.

Actuellement, le plug-in prend en charge les plateformes suivantes : Windows, Linux, Mac, Android (y compris Meta Quest), et iOS.

📹 Voyez-le en action
Regardez la démo YouTube ou testez des échantillons vocaux génériques sur Piper Samples.

Kokoro

Le plug-in prend également en charge les modèles vocaux Kokoro (y compris Kokoro v1.1) - des architectures de synthèse vocale open-source de haute qualité récemment publiées sur Hugging Face.

  • 151 modèles de haute qualité dans 8 langues :
    🇺🇸 English (US) • 🇬🇧 English (UK) • 🇨🇳 Simplified Chinese • 🇪🇸 Spanish • 🇧🇷 Portuguese • 🇮🇳 Hindi • 🇫🇷 French • 🇮🇹 Italian
  • Aperçu en direct disponible : Testez les voix Kokoro
Pourquoi Kokoro ?

Les modèles vocaux Kokoro sont actuellement parmi les solutions de synthèse vocale open-source de la plus haute qualité disponibles aujourd'hui.

Fonctionnalités clés

  • Synthèse entièrement hors ligne : Aucune connexion Internet requise
  • Plusieurs modes de synthèse :
    • Synthèse régulière : Génère l'audio complet pour l'intégralité du texte
    • Synthèse en streaming : Traite les segments audio en temps réel au fur et à mesure de leur génération
  • Prise en charge de l'annulation : Interrompez les opérations de synthèse en cours à tout moment
  • Compatibilité multiplateforme : Fonctionne sur toutes les principales plateformes
  • Prise en charge Blueprint et C++ : Accès complet à l'API dans les deux environnements

Installation

Pour commencer, installez les modèles vocaux via les paramètres du plug-in lors de la première exécution. Après l'installation, vous pouvez commencer à utiliser le plug-in dans votre projet. Pour des instructions détaillées, consultez la page Comment utiliser le plug-in.

Détails du plug-in

Ce plug-in fournit une synthèse vocale en temps réel en utilisant les bibliothèques Piper, Kokoro et ONNX Runtime. Le plug-in vous permet de télécharger et de gérer plusieurs modèles vocaux via l'éditeur, qui peuvent ensuite être empaquetés avec votre projet.

La fonctionnalité principale consiste en un traitement de l'entrée textuelle et une sélection du modèle vocal pour la synthèse. Certains modèles vocaux prennent en charge plusieurs locuteurs - par exemple, English LibriTTS comprend plus de 900 locuteurs différents, German Thorsten Emotional en a 7, etc.

La sortie est un flux de données audio PCM (au format float) avec la fréquence d'échantillonnage et le nombre de canaux correspondants. Ces données peuvent être traitées de deux façons :

  • Synthèse régulière : Recevez les données audio complètes une fois la synthèse terminée
  • Synthèse en streaming : Recevez les données audio par segments au fur et à mesure de leur génération, permettant un traitement en temps réel

La conversion de ces données audio brutes en une onde sonore exploitable nécessite généralement le plug-in Runtime Audio Importer, qui offre à la fois des capacités de lecture régulière et de streaming.

Ressources supplémentaires

Join our Discord
online · support