Saltar al contenido principal

Resumen

Documentación de Runtime Text To Speech

Runtime Text To Speech es un plugin que permite la síntesis de texto a voz en tiempo real, sin conexión y multiplataforma. Soporta 40 idiomas, más de 900 voces y 160+ calidades de voz – ahora con Kokoro 🚀, una familia de modelos de voz de código abierto de última generación con salida de calidad de estudio. El plugin es rápido, ligero e ideal para juegos, aplicaciones y proyectos que requieran voz con sonido natural.

Actualmente, el plugin soporta las siguientes plataformas: Windows, Linux, Mac, Android (incluyendo Meta Quest) e iOS.

📹 Míralo en Acción
Mira el Demo en YouTube o prueba muestras de voz genéricas en Piper Samples.

Kokoro

El plugin ahora implementa modelos de voz Kokoro - arquitecturas TTS de código abierto de alta calidad publicadas recientemente en Hugging Face.

  • 53 modelos de alta calidad en 7 idiomas:
    🇺🇸 Inglés (US) • 🇬🇧 Inglés (UK) • 🇨🇳 Chino simplificado • 🇪🇸 Español • 🇧🇷 Portugués • 🇮🇳 Hindi • 🇫🇷 Francés
  • Vista previa en vivo disponible: Prueba las voces Kokoro
¿Por qué Kokoro?

Los modelos de voz Kokoro están actualmente entre las soluciones TTS de código abierto de más alta calidad disponibles hoy.

Instalación

Para comenzar, instala los modelos de voz a través de la configuración del plugin en el primer uso. Después de la instalación, puedes empezar a usar el plugin en tu proyecto. Para instrucciones detalladas, consulta la página Cómo usar el plugin.

Detalles del Plugin

Este plugin proporciona síntesis de texto a voz en tiempo real utilizando las bibliotecas Piper, Kokoro y ONNX Runtime. El plugin te permite descargar y gestionar múltiples modelos de voz desde el editor, los cuales pueden luego empaquetarse con tu proyecto.

La funcionalidad principal consiste en el procesamiento de texto de entrada y la selección del modelo de voz para la síntesis. Algunos modelos de voz soportan múltiples hablantes - por ejemplo, English LibriTTS incluye más de 900 hablantes diferentes, German Thorsten Emotional tiene 7 hablantes, etc. La salida es datos de audio PCM (en formato float) con la tasa de muestreo y número de canales correspondientes. Convertir estos datos de audio crudos en una onda de sonido reproducible requiere el plugin Runtime Audio Importer.

Recursos Adicionales