Resumen
Runtime Text To Speech es un plugin que permite la síntesis de texto a voz en tiempo real, sin necesidad de conexión a internet y de manera multiplataforma. Soporta 39 idiomas, más de 900 voces y 160+ calidades de voz. Ahora incluye Kokoro 🚀, una familia de modelos de voz de código abierto de última generación con resultados de calidad de estudio. Este plugin es rápido, ligero e ideal para juegos, aplicaciones y proyectos que requieran una voz natural.
Actualmente, el plugin es compatible con las siguientes plataformas: Windows, Linux, Mac, Android (incluyendo Meta Quest) y iOS.
📹 Míralo en acción
Mira la Demo en YouTube o prueba muestras de voz genéricas en Piper Samples.
Kokoro
El plugin ahora implementa los modelos de voz Kokoro, arquitecturas TTS de alta calidad y código abierto publicadas recientemente en Hugging Face.
- 45 modelos de alta calidad en 6 idiomas:
🇺🇸 Inglés (EE.UU.) • 🇬🇧 Inglés (Reino Unido) • 🇪🇸 Español • 🇧🇷 Portugués • 🇮🇳 Hindi • 🇫🇷 Francés - Vista previa en vivo disponible: Probar voces de Kokoro
Los modelos de voz Kokoro están actualmente entre las soluciones TTS de código abierto de mayor calidad disponibles hoy en día.
Instalación
Para comenzar, instala los modelos de voz a través de la configuración del plugin en el primer uso. Después de la instalación, puedes empezar a usar el plugin en tu proyecto. Para obtener instrucciones detalladas, consulta la página Cómo usar el plugin.
Detalles del Plugin
Este plugin proporciona síntesis de texto a voz en tiempo real utilizando las librerías Piper, Kokoro y ONNX Runtime. El plugin permite descargar y gestionar múltiples modelos de voz mediante el editor, los cuales luego pueden ser empaquetados con tu proyecto.
La funcionalidad principal consiste en el procesamiento de entrada de texto y la selección de modelos de voz para la síntesis. Algunos modelos de voz soportan múltiples hablantes, por ejemplo, English LibriTTS incluye más de 900 hablantes diferentes, German Thorsten Emotional tiene 7 hablantes, etc. La salida es audio PCM (en formato float) con la correspondiente tasa de muestreo y número de canales. Convertir estos datos de audio en crudo a una onda de sonido reproducible requiere el plugin Runtime Audio Importer.