Visão Geral

Runtime Text To Speech é um plugin que permite a síntese de texto para fala em tempo real, offline e multiplataforma. Ele suporta 44 idiomas, mais de 900 vozes e 200+ qualidades de voz – agora apresentando Kokoro 🚀, uma família de modelos de voz open-source de ponta com qualidade de estúdio. O plugin é rápido, leve e ideal para jogos, aplicativos e projetos que exigem fala com som natural.
Atualmente, o plugin suporta as seguintes plataformas: Windows, Linux, Mac, Android (incluindo Meta Quest) e iOS.
📹 Veja em Ação
Assista a Demonstração no YouTube ou teste amostras de voz genéricas em Piper Samples.
Kokoro
O plugin também suporta modelos de voz Kokoro - arquiteturas TTS open-source de alta qualidade publicadas recentemente no Hugging Face.
- 49 modelos de alta qualidade em 8 idiomas:
🇺🇸 Inglês (EUA) • 🇬🇧 Inglês (Reino Unido) • 🇨🇳 Chinês Simplificado • 🇪🇸 Espanhol • 🇧🇷 Português • 🇮🇳 Hindi • 🇫🇷 Francês • 🇮🇹 Italiano - Prévia ao vivo disponível: Teste Vozes Kokoro
Os modelos de voz Kokoro estão atualmente entre as soluções TTS open-source de mais alta qualidade disponíveis hoje.
Principais Recursos
- Síntese completamente offline: Nenhuma conexão com a internet necessária
- Múltiplos modos de síntese:
- Síntese regular: Gera áudio completo para todo o texto
- Síntese em streaming: Processa fragmentos de áudio em tempo real conforme são gerados
- Suporte a cancelamento: Interrompa operações de síntese em andamento a qualquer momento
- Compatibilidade multiplataforma: Funciona em todas as principais plataformas
- Suporte a Blueprint e C++: Acesso total à API em ambos os ambientes
Instalação
Para começar, instale os modelos de voz através das configurações do plugin na primeira execução. Após a instalação, você pode começar a usar o plugin em seu projeto. Para instruções detalhadas, consulte a página Como usar o plugin.
Detalhes do Plugin
Este plugin fornece síntese de texto para fala em tempo real usando as bibliotecas Piper, Kokoro e ONNX Runtime. O plugin permite que você baixe e gerencie múltiplos modelos de voz através do editor, que podem então ser empacotados com seu projeto.
A funcionalidade principal consiste no processamento de entrada de texto e na seleção do modelo de voz para síntese. Alguns modelos de voz suportam múltiplos falantes - por exemplo, English LibriTTS inclui mais de 900 falantes diferentes, German Thorsten Emotional tem 7 falantes, etc. A saída são dados de áudio PCM (em formato float) com a taxa de amostragem e o número de canais correspondentes. Esses dados podem ser processados de duas maneiras:
- Síntese regular: Receber os dados de áudio completos quando a síntese terminar
- Síntese em streaming: Receber dados de áudio em blocos conforme são gerados, permitindo processamento em tempo real
Converter esses dados de áudio brutos em uma onda sonora reproduzível geralmente requer o plugin Runtime Audio Importer, que fornece capacidades de reprodução tanto regulares quanto em streaming.
Recursos Adicionais
- Obtenha no Fab
- Site do produto
- Baixar Demo (Windows)
- Servidor de suporte no Discord
- Tutorial em vídeo
- Suporte do Plugin & Desenvolvimento Personalizado: [email protected] (soluções personalizadas para equipes e organizações)