Saltar al contenido principal

Visión general

Runtime Text To Speech Documentation

Runtime Text To Speech es un plugin que permite la síntesis de texto a voz en tiempo real, sin conexión y multiplataforma. Soporta 51 idiomas, más de 2800 voces y 75 cualidades de voz, y ahora incluye Kokoro, una familia de modelos de voz de código abierto con calidad de estudio. El plugin es rápido, ligero e ideal para juegos, aplicaciones y proyectos que requieran un habla natural.

Actualmente, el plugin es compatible con las siguientes plataformas: Windows, Linux, Mac, Android (incluyendo Meta Quest) e iOS.

📹 Véalo en acción
Mire la Demostración en YouTube (video anterior) o pruebe muestras de voz genéricas en Piper Samples.

Kokoro

El plugin también soporta modelos de voz Kokoro (incluyendo Kokoro v1.1), arquitecturas TTS de código abierto de alta calidad publicadas recientemente en Hugging Face.

  • 151 modelos de alta calidad en 8 idiomas:
    🇺🇸 Inglés (EE. UU.) • 🇬🇧 Inglés (RU) • 🇨🇳 Chino simplificado • 🇪🇸 Español • 🇧🇷 Portugués • 🇮🇳 Hindi • 🇫🇷 Francés • 🇮🇹 Italiano
  • Vista previa disponible: Probar voces Kokoro
¿Por qué Kokoro?

Los modelos de voz Kokoro se encuentran actualmente entre las soluciones TTS de código abierto de mayor calidad disponibles hoy en día.

Características clave

  • Síntesis completamente sin conexión: No se requiere conexión a internet
  • Múltiples modos de síntesis:
    • Síntesis regular: Genera audio completo para todo el texto
    • Síntesis en streaming: Procesa fragmentos de audio en tiempo real a medida que se generan
  • Cancelación: Interrumpe las operaciones de síntesis en curso en cualquier momento
  • Compatibilidad multiplataforma: Funciona en todas las plataformas principales
  • Soporte para Blueprint y C++: Acceso completo a la API en ambos entornos

Instalación

Para comenzar, instale los modelos de voz a través de la configuración del plugin en la primera ejecución. Una vez instalados, puede empezar a usar el plugin en su proyecto. Para instrucciones detalladas, consulte la página Cómo usar el plugin.

Detalles del plugin

Este plugin proporciona síntesis de texto a voz en tiempo real utilizando las bibliotecas Piper, Kokoro y ONNX Runtime. El plugin le permite descargar y gestionar múltiples modelos de voz a través del editor, que luego pueden empaquetarse con su proyecto.

La funcionalidad principal consiste en el procesamiento de entrada de texto y la selección del modelo de voz para la síntesis. Algunos modelos de voz admiten múltiples hablantes; por ejemplo, English LibriTTS incluye más de 900 hablantes diferentes, German Thorsten Emotional tiene 7 hablantes, etc.

La salida son datos de audio PCM (en formato float) con la tasa de muestreo y número de canales correspondientes. Estos datos pueden procesarse de dos maneras:

  • Síntesis regular: Recibe los datos de audio completos cuando la síntesis ha finalizado
  • Síntesis en streaming: Recibe datos de audio en fragmentos a medida que se generan, permitiendo el procesamiento en tiempo real

Convertir estos datos de audio crudos en una onda de sonido reproducible generalmente requiere el plugin Runtime Audio Importer, que proporciona capacidades de reproducción tanto regular como en streaming.

Recursos adicionales

Join our Discord
online · support