Saltar al contenido principal

Descripción general

Documentación de Runtime Text To Speech

Runtime Text To Speech es un plugin que permite la síntesis de texto a voz en tiempo real, sin conexión y multiplataforma. Soporta 45 idiomas, más de 900 voces y 140+ cualidades de voz – ahora con Kokoro 🚀, una familia de modelos de voz de código abierto de vanguardia con salida de calidad de estudio. El plugin es rápido, ligero e ideal para juegos, aplicaciones y proyectos que requieran voz de sonido natural.

Actualmente, el plugin soporta las siguientes plataformas: Windows, Linux, Mac, Android (incluyendo Meta Quest) e iOS.

📹 Véalo en acción
Mira la Demostración en YouTube o prueba muestras de voz genéricas en Piper Samples.

Kokoro

El plugin también soporta modelos de voz Kokoro (incluyendo Kokoro v1.1) - arquitecturas TTS de código abierto de alta calidad publicadas recientemente en Hugging Face.

  • 152 modelos de alta calidad en 8 idiomas:
    🇺🇸 Inglés (EE.UU.) • 🇬🇧 Inglés (Reino Unido.) • 🇨🇳 Chino simplificado • 🇪🇸 Español • 🇧🇷 Portugués • 🇮🇳 Hindi • 🇫🇷 Francés • 🇮🇹 Italiano
  • Vista previa en vivo disponible: Prueba las voces Kokoro
¿Por qué Kokoro?

Los modelos de voz Kokoro están actualmente entre las soluciones TTS de código abierto de más alta calidad disponibles hoy en día.

Características principales

  • Síntesis completamente sin conexión: No se requiere conexión a internet
  • Múltiples modos de síntesis:
    • Síntesis regular: Genera audio completo para todo el texto
    • Síntesis en streaming: Procesa fragmentos de audio en tiempo real a medida que se generan
  • Soporte de cancelación: Interrumpe operaciones de síntesis en curso en cualquier momento
  • Compatibilidad multiplataforma: Funciona en todas las plataformas principales
  • Soporte para Blueprints y C++: Acceso completo a la API en ambos entornos

Instalación

Para comenzar, instala los modelos de voz a través de la configuración del plugin en el primer inicio. Después de la instalación, puedes empezar a usar el plugin en tu proyecto. Para instrucciones detalladas, consulta la página Cómo usar el plugin.

Detalles del plugin

Este plugin proporciona síntesis de texto a voz en tiempo real utilizando las bibliotecas Piper, Kokoro y ONNX Runtime. El plugin te permite descargar y gestionar múltiples modelos de voz a través del editor, que luego pueden empaquetarse con tu proyecto.

La funcionalidad principal consiste en el procesamiento de entrada de texto y la selección del modelo de voz para la síntesis. Algunos modelos de voz soportan múltiples hablantes; por ejemplo, English LibriTTS incluye más de 900 hablantes diferentes, German Thorsten Emotional tiene 7 hablantes, etc.

La salida son datos de audio PCM (en formato float) con la tasa de muestreo y el número de canales correspondientes. Estos datos se pueden procesar de dos maneras:

  • Síntesis regular: Recibir los datos de audio completos cuando termine la síntesis
  • Síntesis en streaming: Recibir datos de audio en fragmentos a medida que se generan, permitiendo el procesamiento en tiempo real

Convertir estos datos de audio sin procesar en una onda de sonido reproducible generalmente requiere el plugin Runtime Audio Importer, que proporciona capacidades de reproducción tanto regulares como en streaming.

Recursos adicionales