Visão Geral
Runtime Text To Speech é um plugin que permite a síntese de texto em fala em tempo real, offline e multiplataforma. Ele suporta 40 idiomas, mais de 900 vozes e 160+ qualidades de voz – agora apresentando Kokoro 🚀, uma família de modelos de voz de código aberto de última geração com qualidade de estúdio. O plugin é rápido, leve e ideal para jogos, aplicativos e projetos que exigem fala natural.
Atualmente, o plugin suporta as seguintes plataformas: Windows, Linux, Mac, Android (incluindo Meta Quest) e iOS.
📹 Veja em Ação
Assista a Demonstração no YouTube ou teste amostras genéricas de voz em Piper Samples.
Kokoro
O plugin agora implementa modelos de voz Kokoro - arquiteturas TTS de código aberto de alta qualidade recentemente publicadas no Hugging Face.
- 49 modelos de alta qualidade em 8 idiomas:
🇺🇸 Inglês (EUA) • 🇬🇧 Inglês (Reino Unido) • 🇨🇳 Chinês Simplificado • 🇪🇸 Espanhol • 🇧🇷 Português • 🇮🇳 Hindi • 🇫🇷 Francês • 🇮🇹 Italiano - Prévia disponível: Teste as Vozes Kokoro
Os modelos de voz Kokoro estão entre as soluções TTS de código aberto de mais alta qualidade disponíveis atualmente.
Principais Recursos
- Síntese totalmente offline: Nenhuma conexão com a internet necessária
- Múltiplos modos de síntese:
- Síntese regular: Gera áudio completo para todo o texto
- Síntese em streaming: Processa fragmentos de áudio em tempo real conforme são gerados
- Suporte a cancelamento: Interrompa operações de síntese a qualquer momento
- Compatibilidade multiplataforma: Funciona em todas as principais plataformas
- Suporte a Blueprints e C++: Acesso completo à API em ambos os ambientes
Instalação
Para começar, instale os modelos de voz através das configurações do plugin na primeira execução. Após a instalação, você pode começar a usar o plugin em seu projeto. Para instruções detalhadas, consulte a página Como usar o plugin.
Detalhes do Plugin
Este plugin fornece síntese de texto em fala em tempo real usando as bibliotecas Piper, Kokoro e ONNX Runtime. O plugin permite baixar e gerenciar múltiplos modelos de voz via editor, que podem então ser empacotados com seu projeto.
A funcionalidade principal consiste no processamento de entrada de texto e seleção de modelo de voz para síntese. Alguns modelos de voz suportam múltiplos falantes - por exemplo, English LibriTTS inclui mais de 900 falantes diferentes, German Thorsten Emotional tem 7 falantes, etc.
A saída são dados de áudio PCM (em formato float) com taxa de amostragem e número de canais correspondentes. Esses dados podem ser processados de duas formas:
- Síntese regular: Recebe os dados de áudio completos quando a síntese é finalizada
- Síntese em streaming: Recebe dados de áudio em fragmentos conforme são gerados, permitindo processamento em tempo real
Converter esses dados brutos de áudio em uma onda sonora reproduzível geralmente requer o plugin Runtime Audio Importer, que fornece capacidades de reprodução tanto regulares quanto em streaming.
Recursos Adicionais
- Obtenha no Fab
- Site do produto
- Baixar Demo (Windows)
- Servidor de suporte no Discord
- Tutorial em vídeo
- Desenvolvimento Personalizado: [email protected] (soluções sob medida para equipes e organizações)