Pular para o conteúdo principal

Visão Geral

Runtime Text To Speech Documentation

Runtime Text To Speech é um plugin que permite a síntese de texto em fala em tempo real, offline e multiplataforma. Ele suporta 40 idiomas, mais de 900 vozes e 160+ qualidades de voz – agora apresentando Kokoro 🚀, uma família de modelos de voz de código aberto de última geração com qualidade de estúdio. O plugin é rápido, leve e ideal para jogos, aplicativos e projetos que exigem fala natural.

Atualmente, o plugin suporta as seguintes plataformas: Windows, Linux, Mac, Android (incluindo Meta Quest) e iOS.

📹 Veja em Ação
Assista a Demonstração no YouTube ou teste amostras genéricas de voz em Piper Samples.

Kokoro

O plugin agora implementa modelos de voz Kokoro - arquiteturas TTS de código aberto de alta qualidade recentemente publicadas no Hugging Face.

  • 49 modelos de alta qualidade em 8 idiomas:
    🇺🇸 Inglês (EUA) • 🇬🇧 Inglês (Reino Unido) • 🇨🇳 Chinês Simplificado • 🇪🇸 Espanhol • 🇧🇷 Português • 🇮🇳 Hindi • 🇫🇷 Francês • 🇮🇹 Italiano
  • Prévia disponível: Teste as Vozes Kokoro
Por que Kokoro?

Os modelos de voz Kokoro estão entre as soluções TTS de código aberto de mais alta qualidade disponíveis atualmente.

Principais Recursos

  • Síntese totalmente offline: Nenhuma conexão com a internet necessária
  • Múltiplos modos de síntese:
    • Síntese regular: Gera áudio completo para todo o texto
    • Síntese em streaming: Processa fragmentos de áudio em tempo real conforme são gerados
  • Suporte a cancelamento: Interrompa operações de síntese a qualquer momento
  • Compatibilidade multiplataforma: Funciona em todas as principais plataformas
  • Suporte a Blueprints e C++: Acesso completo à API em ambos os ambientes

Instalação

Para começar, instale os modelos de voz através das configurações do plugin na primeira execução. Após a instalação, você pode começar a usar o plugin em seu projeto. Para instruções detalhadas, consulte a página Como usar o plugin.

Detalhes do Plugin

Este plugin fornece síntese de texto em fala em tempo real usando as bibliotecas Piper, Kokoro e ONNX Runtime. O plugin permite baixar e gerenciar múltiplos modelos de voz via editor, que podem então ser empacotados com seu projeto.

A funcionalidade principal consiste no processamento de entrada de texto e seleção de modelo de voz para síntese. Alguns modelos de voz suportam múltiplos falantes - por exemplo, English LibriTTS inclui mais de 900 falantes diferentes, German Thorsten Emotional tem 7 falantes, etc.

A saída são dados de áudio PCM (em formato float) com taxa de amostragem e número de canais correspondentes. Esses dados podem ser processados de duas formas:

  • Síntese regular: Recebe os dados de áudio completos quando a síntese é finalizada
  • Síntese em streaming: Recebe dados de áudio em fragmentos conforme são gerados, permitindo processamento em tempo real

Converter esses dados brutos de áudio em uma onda sonora reproduzível geralmente requer o plugin Runtime Audio Importer, que fornece capacidades de reprodução tanto regulares quanto em streaming.

Recursos Adicionais