Visão Geral

Runtime Text To Speech é um plugin que permite síntese de texto para fala em tempo real, offline e multiplataforma. Ele suporta 51 idiomas, mais de 2800 vozes e 75 qualidades de voz, e agora inclui Kokoro, uma família de modelos de voz de código aberto com saída de qualidade de estúdio. O plugin é rápido, leve e ideal para jogos, aplicativos e projetos que necessitam de fala com som natural.
Atualmente, o plugin suporta as seguintes plataformas: Windows, Linux, Mac, Android (incluindo Meta Quest) e iOS.
📹 Veja em Ação
Assista à Demonstração no YouTube (vídeo mais antigo) ou teste amostras de voz genéricas em Piper Samples.
Kokoro
O plugin também suporta modelos de voz Kokoro (incluindo Kokoro v1.1) - arquiteturas TTS de código aberto de alta qualidade publicadas recentemente no Hugging Face.
- 151 modelos de alta qualidade em 8 idiomas:
🇺🇸 English (US) • 🇬🇧 English (UK) • 🇨🇳 Simplified Chinese • 🇪🇸 Spanish • 🇧🇷 Portuguese • 🇮🇳 Hindi • 🇫🇷 French • 🇮🇹 Italian - Pré-visualização ao vivo disponível: Teste as Vozes Kokoro
Os modelos de voz Kokoro estão atualmente entre as soluções TTS de código aberto de mais alta qualidade disponíveis hoje.
Principais Recursos
- Síntese completamente offline: Não requer conexão com a internet
- Múltiplos modos de síntese:
- Síntese regular: Gera áudio completo para o texto inteiro
- Síntese por streaming: Processa pedaços de áudio em tempo real conforme são gerados
- Suporte a cancelamento: Interrompe operações de síntese em andamento a qualquer momento
- Compatibilidade multiplataforma: Funciona em todas as principais plataformas
- Suporte a Blueprint e C++: Acesso completo à API em ambos os ambientes
Instalação
Para começar, instale os modelos de voz através das configurações do plugin na primeira execução. Após a instalação, você pode começar a usar o plugin no seu projeto. Para instruções detalhadas, consulte a página Como usar o plugin.
Detalhes do Plugin
Este plugin fornece síntese de texto para fala em tempo real usando as bibliotecas Piper, Kokoro e ONNX Runtime. O plugin permite baixar e gerenciar vários modelos de voz através do editor, que podem então ser empacotados com seu projeto.
A funcionalidade principal consiste no processamento da entrada de texto e na seleção do modelo de voz para síntese. Alguns modelos de voz suportam múltiplos locutores - por exemplo, o English LibriTTS inclui mais de 900 locutores diferentes, o German Thorsten Emotional tem 7 locutores, etc.
A saída são dados de áudio PCM (em formato float) com a taxa de amostragem e o número de canais correspondentes. Esses dados podem ser processados de duas maneiras:
- Síntese regular: Recebe os dados de áudio completos quando a síntese é concluída
- Síntese por streaming: Recebe os dados de áudio em pedaços conforme são gerados, permitindo processamento em tempo real
Converter esses dados de áudio brutos em uma onda sonora reproduzível geralmente requer o plugin Runtime Audio Importer, que oferece capacidades de reprodução regular e por streaming.
Recursos Adicionais
- Obtenha no Fab
- Site do produto
- Baixar Demonstração (Windows)
- Tutorial em vídeo (vídeo mais antigo)
- Suporte ao Plugin e Desenvolvimento Personalizado: [email protected] (soluções sob medida para equipes e organizações)