Saltar al contenido principal

Descripción general

Runtime Text To Speech Documentation

Runtime Text To Speech es un plugin que permite síntesis de texto a voz en tiempo real, sin conexión y multiplataforma. Soporta 51 idiomas, más de 2800 voces y 75 cualidades de voz, y ahora incluye Kokoro, una familia de modelos de voz de código abierto con calidad de estudio. El plugin es rápido, ligero e ideal para juegos, aplicaciones y proyectos que requieran habla con sonido natural.

Actualmente, el plugin es compatible con las siguientes plataformas: Windows, Linux, Mac, Android (incluyendo Meta Quest) y iOS.

📹 Verlo en acción
Vea la Demo de YouTube o pruebe muestras de voz genéricas en Muestras de Piper.

Kokoro

El plugin también soporta modelos de voz Kokoro (incluyendo Kokoro v1.1), arquitecturas TTS de código abierto de alta calidad publicadas recientemente en Hugging Face.

  • 151 modelos de alta calidad en 8 idiomas:
    🇺🇸 Inglés (EE. UU.) • 🇬🇧 Inglés (Reino Unido) • 🇨🇳 Chino simplificado • 🇪🇸 Español • 🇧🇷 Portugués • 🇮🇳 Hindi • 🇫🇷 Francés • 🇮🇹 Italiano
  • Vista previa en vivo disponible: Probar voces Kokoro
¿Por qué Kokoro?

Los modelos de voz Kokoro se encuentran actualmente entre las soluciones TTS de código abierto de mayor calidad disponibles hoy en día.

Características principales

  • Síntesis completamente sin conexión: No se requiere conexión a internet
  • Múltiples modos de síntesis:
    • Síntesis regular: Genera el audio completo para todo el texto
    • Síntesis en streaming: Procesa fragmentos de audio en tiempo real a medida que se generan
  • Soporte de cancelación: Interrumpe las operaciones de síntesis en curso en cualquier momento
  • Compatibilidad multiplataforma: Funciona en todas las plataformas principales
  • Soporte para Blueprint y C++: Acceso completo a la API en ambos entornos

Instalación

Para empezar, instale los modelos de voz a través de la configuración del plugin en la primera ejecución. Después de la instalación, puede comenzar a usar el plugin en su proyecto. Para instrucciones detalladas, consulte la página Cómo usar el plugin.

Detalles del plugin

Este plugin proporciona síntesis de texto a voz en tiempo real utilizando las bibliotecas Piper, Kokoro y ONNX Runtime. El plugin le permite descargar y gestionar múltiples modelos de voz a través del editor, los cuales luego pueden ser empaquetados con su proyecto.

La funcionalidad principal consiste en el procesamiento de la entrada de texto y la selección del modelo de voz para la síntesis. Algunos modelos de voz soportan múltiples hablantes; por ejemplo, English LibriTTS incluye más de 900 hablantes diferentes, German Thorsten Emotional tiene 7 hablantes, etc.

La salida son datos de audio PCM (en formato float) con la correspondiente frecuencia de muestreo y número de canales. Estos datos pueden procesarse de dos maneras:

  • Síntesis regular: Recibe los datos de audio completos cuando finaliza la síntesis
  • Síntesis en streaming: Recibe los datos de audio en fragmentos a medida que se generan, permitiendo el procesamiento en tiempo real

Convertir estos datos de audio sin procesar en una onda de sonido reproducible generalmente requiere el plugin Runtime Audio Importer, que proporciona capacidades de reproducción tanto regular como en streaming.

Recursos adicionales

Join our Discord
online · support