Descripción general

Runtime Text To Speech es un plugin que permite la síntesis de texto a voz en tiempo real, sin conexión y multiplataforma. Soporta 44 idiomas, más de 900 voces y 200+ cualidades de voz – ahora con Kokoro 🚀, una familia de modelos de voz de código abierto de vanguardia con calidad de estudio. El plugin es rápido, ligero e ideal para juegos, aplicaciones y proyectos que requieran voz de sonido natural.
Actualmente, el plugin soporta las siguientes plataformas: Windows, Linux, Mac, Android (incluyendo Meta Quest) e iOS.
📹 Véalo en acción
Vea la Demostración en YouTube o pruebe muestras de voz genéricas en Piper Samples.
Kokoro
El plugin también soporta modelos de voz Kokoro - arquitecturas TTS de código abierto de alta calidad publicadas recientemente en Hugging Face.
- 49 modelos de alta calidad en 8 idiomas:
🇺🇸 Inglés (EE.UU.) • 🇬🇧 Inglés (Reino Unido.) • 🇨🇳 Chino simplificado • 🇪🇸 Español • 🇧🇷 Portugués • 🇮🇳 Hindi • 🇫🇷 Francés • 🇮🇹 Italiano - Vista previa en vivo disponible: Pruebe las voces Kokoro
Los modelos de voz Kokoro están actualmente entre las soluciones TTS de código abierto de más alta calidad disponibles hoy en día.
Características principales
- Síntesis completamente sin conexión: No se requiere conexión a internet
- Múltiples modos de síntesis:
- Síntesis regular: Genera audio completo para todo el texto
- Síntesis en streaming: Procesa fragmentos de audio en tiempo real a medida que se generan
- Soporte de cancelación: Interrumpe operaciones de síntesis en curso en cualquier momento
- Compatibilidad multiplataforma: Funciona en todas las plataformas principales
- Soporte para Blueprints y C++: Acceso completo a la API en ambos entornos
Instalación
Para comenzar, instale los modelos de voz a través de la configuración del plugin en el primer uso. Después de la instalación, puede empezar a usar el plugin en su proyecto. Para instrucciones detalladas, consulte la página Cómo usar el plugin.
Detalles del plugin
Este plugin proporciona síntesis de texto a voz en tiempo real utilizando las bibliotecas Piper, Kokoro y ONNX Runtime. El plugin le permite descargar y gestionar múltiples modelos de voz a través del editor, que luego pueden empaquetarse con su proyecto.
La funcionalidad principal consiste en el procesamiento de entrada de texto y la selección del modelo de voz para la síntesis. Algunos modelos de voz soportan múltiples hablantes - por ejemplo, English LibriTTS incluye más de 900 hablantes diferentes, German Thorsten Emotional tiene 7 hablantes, etc. La salida son datos de audio PCM (en formato float) con la frecuencia de muestreo y el número de canales correspondientes. Estos datos se pueden procesar de dos maneras:
- Síntesis regular: Recibir los datos de audio completos cuando la síntesis haya finalizado
- Síntesis en streaming: Recibir los datos de audio en fragmentos a medida que se generan, permitiendo un procesamiento en tiempo real
Convertir estos datos de audio sin procesar en una onda sonora reproducible suele requerir el plugin Runtime Audio Importer, que proporciona capacidades de reproducción tanto regulares como en streaming.
Recursos Adicionales
- Consíguelo en Fab
- Sitio web del producto
- Descargar Demo (Windows)
- Servidor de soporte en Discord
- Tutorial en video
- Soporte del Plugin & Desarrollo Personalizado: [email protected] (soluciones a medida para equipos y organizaciones)