Visão Geral

Runtime Text To Speech é um plugin que permite síntese de texto para fala em tempo real, offline e multiplataforma. Ele suporta 51 idiomas, mais de 2800 vozes e 75 qualidades de voz, e agora inclui Kokoro, uma família de modelos de voz de código aberto com saída de qualidade de estúdio. O plugin é rápido, leve e ideal para jogos, aplicativos e projetos que necessitam de fala com som natural.

Atualmente, o plugin suporta as seguintes plataformas: Windows, Linux, Mac, Android (incluindo Meta Quest) e iOS.

📹 Veja em Ação
Assista à Demonstração no YouTube (vídeo mais antigo) ou teste amostras de voz genéricas em Piper Samples.

Kokoro

O plugin também suporta modelos de voz Kokoro (incluindo Kokoro v1.1) - arquiteturas TTS de código aberto de alta qualidade publicadas recentemente no Hugging Face.

151 modelos de alta qualidade em 8 idiomas:
🇺🇸 English (US) • 🇬🇧 English (UK) • 🇨🇳 Simplified Chinese • 🇪🇸 Spanish • 🇧🇷 Portuguese • 🇮🇳 Hindi • 🇫🇷 French • 🇮🇹 Italian
Pré-visualização ao vivo disponível: Teste as Vozes Kokoro

Por que Kokoro?

Os modelos de voz Kokoro estão atualmente entre as soluções TTS de código aberto de mais alta qualidade disponíveis hoje.

Principais Recursos

Síntese completamente offline: Não requer conexão com a internet
Múltiplos modos de síntese:
- Síntese regular: Gera áudio completo para o texto inteiro
- Síntese por streaming: Processa pedaços de áudio em tempo real conforme são gerados
Suporte a cancelamento: Interrompe operações de síntese em andamento a qualquer momento
Compatibilidade multiplataforma: Funciona em todas as principais plataformas
Suporte a Blueprint e C++: Acesso completo à API em ambos os ambientes

Instalação

Para começar, instale os modelos de voz através das configurações do plugin na primeira execução. Após a instalação, você pode começar a usar o plugin no seu projeto. Para instruções detalhadas, consulte a página Como usar o plugin.

Detalhes do Plugin

Este plugin fornece síntese de texto para fala em tempo real usando as bibliotecas Piper, Kokoro e ONNX Runtime. O plugin permite baixar e gerenciar vários modelos de voz através do editor, que podem então ser empacotados com seu projeto.

A funcionalidade principal consiste no processamento da entrada de texto e na seleção do modelo de voz para síntese. Alguns modelos de voz suportam múltiplos locutores - por exemplo, o English LibriTTS inclui mais de 900 locutores diferentes, o German Thorsten Emotional tem 7 locutores, etc.

A saída são dados de áudio PCM (em formato float) com a taxa de amostragem e o número de canais correspondentes. Esses dados podem ser processados de duas maneiras:

Síntese regular: Recebe os dados de áudio completos quando a síntese é concluída
Síntese por streaming: Recebe os dados de áudio em pedaços conforme são gerados, permitindo processamento em tempo real

Converter esses dados de áudio brutos em uma onda sonora reproduzível geralmente requer o plugin Runtime Audio Importer, que oferece capacidades de reprodução regular e por streaming.

Recursos Adicionais

Obtenha no Fab
Site do produto
Baixar Demonstração (Windows)
Tutorial em vídeo (vídeo mais antigo)
Suporte ao Plugin e Desenvolvimento Personalizado: [email protected] (soluções sob medida para equipes e organizações)

Join our Discord

online · support

Kokoro​

Principais Recursos​

Instalação​

Detalhes do Plugin​

Recursos Adicionais​

Kokoro

Principais Recursos

Instalação

Detalhes do Plugin

Recursos Adicionais