Saltar al contenido principal

Resumen

Documentación de Runtime Text To Speech

Runtime Text To Speech es un plugin que permite la síntesis de texto a voz en tiempo real, sin conexión y multiplataforma. Soporta 40 idiomas, más de 900 voces y 160+ calidades de voz – ahora con Kokoro 🚀, una familia de modelos de voz de código abierto de última generación con calidad de estudio. El plugin es rápido, ligero e ideal para juegos, aplicaciones y proyectos que requieran voces naturales.

Actualmente, el plugin soporta las siguientes plataformas: Windows, Linux, Mac, Android (incluyendo Meta Quest) e iOS.

📹 Véalo en Acción
Mire el Demo en YouTube o pruebe muestras de voz genéricas en Piper Samples.

Kokoro

El plugin ahora implementa modelos de voz Kokoro - arquitecturas TTS de código abierto y alta calidad recientemente publicadas en Hugging Face.

  • 49 modelos de alta calidad en 8 idiomas:
    🇺🇸 Inglés (US) • 🇬🇧 Inglés (UK) • 🇨🇳 Chino simplificado • 🇪🇸 Español • 🇧🇷 Portugués • 🇮🇳 Hindi • 🇫🇷 Francés • 🇮🇹 Italiano
  • Vista previa en vivo disponible: Pruebe voces Kokoro
¿Por qué Kokoro?

Los modelos de voz Kokoro están actualmente entre las soluciones TTS de código abierto de más alta calidad disponibles hoy.

Características Clave

  • Síntesis completamente offline: No se requiere conexión a internet
  • Múltiples modos de síntesis:
    • Síntesis regular: Genera audio completo para todo el texto
    • Síntesis en streaming: Procesa fragmentos de audio en tiempo real a medida que se generan
  • Soporte para cancelación: Interrumpa operaciones de síntesis en cualquier momento
  • Compatibilidad multiplataforma: Funciona en todas las plataformas principales
  • Soporte para Blueprints y C++: Acceso completo a la API en ambos entornos

Instalación

Para comenzar, instale modelos de voz a través de la configuración del plugin en el primer uso. Después de la instalación, puede empezar a usar el plugin en su proyecto. Para instrucciones detalladas, consulte la página Cómo usar el plugin.

Detalles del Plugin

Este plugin proporciona síntesis de texto a voz en tiempo real usando las bibliotecas Piper, Kokoro y ONNX Runtime. El plugin permite descargar y gestionar múltiples modelos de voz desde el editor, que luego pueden empaquetarse con su proyecto.

La funcionalidad principal consiste en el procesamiento de texto de entrada y la selección del modelo de voz para síntesis. Algunos modelos de voz soportan múltiples hablantes - por ejemplo, English LibriTTS incluye más de 900 hablantes diferentes, German Thorsten Emotional tiene 7 hablantes, etc.

La salida son datos de audio PCM (en formato float) con la tasa de muestreo y número de canales correspondientes. Estos datos pueden procesarse de dos maneras:

  • Síntesis regular: Recibe los datos de audio completos cuando finaliza la síntesis
  • Síntesis en streaming: Recibe datos de audio en fragmentos a medida que se generan, permitiendo procesamiento en tiempo real

Convertir estos datos de audio crudos en una onda sonora reproducible generalmente requiere el plugin Runtime Audio Importer, que proporciona capacidades de reproducción tanto regulares como en streaming.

Recursos Adicionales