Saltar al contenido principal

Overview

Documentación de Runtime Text To Speech

Runtime Text To Speech es un plugin que permite la síntesis de texto a voz en tiempo real, sin conexión y multiplataforma. Soporta 40 idiomas, más de 900 voces, y más de 160 cualidades de voz – ahora presenta Kokoro 🚀, una familia de modelos de voz de código abierto de vanguardia con salida de calidad de estudio. El plugin es rápido, liviano e ideal para juegos, aplicaciones y proyectos que requieren una voz natural.

Actualmente, el plugin es compatible con las siguientes plataformas: Windows, Linux, Mac, Android (incluyendo Meta Quest), y iOS.

📹 Verlo en acción
Mira el Demo en YouTube o prueba muestras de voz genéricas en Piper Samples.

Kokoro

El plugin ahora implementa modelos de voz Kokoro - arquitecturas TTS de alta calidad y de código abierto recientemente publicadas en Hugging Face.

  • 45 modelos de alta calidad en 6 idiomas:
    🇺🇸 Inglés (US) • 🇬🇧 Inglés (UK) • 🇪🇸 Español • 🇧🇷 Portugués • 🇮🇳 Hindi • 🇫🇷 Francés
  • Vista previa en vivo disponible: Prueba Voces Kokoro
¿Por qué Kokoro?

Los modelos de voz Kokoro son actualmente una de las soluciones TTS de código abierto de la más alta calidad disponibles hoy en día.

Instalación

Para comenzar, instala los modelos de voz a través de los ajustes del plugin en la primera ejecución. Después de la instalación, puedes comenzar a usar el plugin en tu proyecto. Para instrucciones detalladas, consulta la página Cómo usar el plugin.

Detalles del Plugin

Este plugin proporciona síntesis de texto a voz en tiempo real utilizando las bibliotecas Piper, Kokoro, y ONNX Runtime. El plugin te permite descargar y gestionar múltiples modelos de voz a través del editor, los cuales pueden ser empaquetados con tu proyecto.

La funcionalidad central consiste en el procesamiento de entrada de texto y selección de modelo de voz para la síntesis. Algunos modelos de voz soportan múltiples hablantes - por ejemplo, English LibriTTS incluye más de 900 hablantes diferentes, German Thorsten Emotional tiene 7 hablantes, etc. La salida es datos de audio PCM (en formato float) con la tasa de muestreo y número de canales correspondientes. Convertir estos datos de audio sin procesar en una onda de sonido reproducible requiere el plugin Runtime Audio Importer.

Recursos Adicionales