Pular para o conteúdo principal

Visão Geral

Documentação do Runtime Text To Speech

Runtime Text To Speech é um plugin que permite síntese de texto para fala em tempo real, offline e multiplataforma. Ele suporta 51 idiomas, mais de 2800 vozes e 75 qualidades de voz, e agora inclui Kokoro, uma família de modelos de voz de código aberto com saída de qualidade de estúdio. O plugin é rápido, leve e ideal para jogos, aplicativos e projetos que necessitam de fala com som natural.

Atualmente, o plugin suporta as seguintes plataformas: Windows, Linux, Mac, Android (incluindo Meta Quest) e iOS.

📹 Veja em Ação
Assista à Demonstração no YouTube (vídeo mais antigo) ou teste amostras de voz genéricas em Piper Samples.

Kokoro

O plugin também suporta modelos de voz Kokoro (incluindo Kokoro v1.1) - arquiteturas TTS de código aberto de alta qualidade publicadas recentemente no Hugging Face.

  • 151 modelos de alta qualidade em 8 idiomas:
    🇺🇸 English (US) • 🇬🇧 English (UK) • 🇨🇳 Simplified Chinese • 🇪🇸 Spanish • 🇧🇷 Portuguese • 🇮🇳 Hindi • 🇫🇷 French • 🇮🇹 Italian
  • Pré-visualização ao vivo disponível: Teste as Vozes Kokoro
Por que Kokoro?

Os modelos de voz Kokoro estão atualmente entre as soluções TTS de código aberto de mais alta qualidade disponíveis hoje.

Principais Recursos

  • Síntese completamente offline: Não requer conexão com a internet
  • Múltiplos modos de síntese:
    • Síntese regular: Gera áudio completo para o texto inteiro
    • Síntese por streaming: Processa pedaços de áudio em tempo real conforme são gerados
  • Suporte a cancelamento: Interrompe operações de síntese em andamento a qualquer momento
  • Compatibilidade multiplataforma: Funciona em todas as principais plataformas
  • Suporte a Blueprint e C++: Acesso completo à API em ambos os ambientes

Instalação

Para começar, instale os modelos de voz através das configurações do plugin na primeira execução. Após a instalação, você pode começar a usar o plugin no seu projeto. Para instruções detalhadas, consulte a página Como usar o plugin.

Detalhes do Plugin

Este plugin fornece síntese de texto para fala em tempo real usando as bibliotecas Piper, Kokoro e ONNX Runtime. O plugin permite baixar e gerenciar vários modelos de voz através do editor, que podem então ser empacotados com seu projeto.

A funcionalidade principal consiste no processamento da entrada de texto e na seleção do modelo de voz para síntese. Alguns modelos de voz suportam múltiplos locutores - por exemplo, o English LibriTTS inclui mais de 900 locutores diferentes, o German Thorsten Emotional tem 7 locutores, etc.

A saída são dados de áudio PCM (em formato float) com a taxa de amostragem e o número de canais correspondentes. Esses dados podem ser processados de duas maneiras:

  • Síntese regular: Recebe os dados de áudio completos quando a síntese é concluída
  • Síntese por streaming: Recebe os dados de áudio em pedaços conforme são gerados, permitindo processamento em tempo real

Converter esses dados de áudio brutos em uma onda sonora reproduzível geralmente requer o plugin Runtime Audio Importer, que oferece capacidades de reprodução regular e por streaming.

Recursos Adicionais

Join our Discord
online · support