Visão Geral

O Runtime Speech Recognizer é um plugin multiplataforma que permite o reconhecimento de fala em tempo real e offline. Baseado na tecnologia Whisper da OpenAI, especificamente na biblioteca whisper.cpp, e suporta múltiplos modelos de linguagem pré-selecionados nas configurações do plugin com capacidades de detecção automática de idioma.

Como instalar

Na primeira execução, instale os modelos de linguagem (uma caixa de diálogo aparecerá pedindo para você fazer isso automaticamente).

Descrição básica

Este plugin fornece reconhecimento de fala em tempo real usando algoritmos avançados baseados na biblioteca whisper.cpp, que está disponível sob a permissiva licença MIT. Ele compara os dados de áudio recebidos, fornecidos como um fluxo ou entrada não contínua (como um arquivo ou buffer de dados de áudio), com modelos de linguagem pré-treinados. Ao usar modelos multilíngues, o plugin pode detectar automaticamente o idioma falado e fornecer essa informação juntamente com o texto reconhecido.

O plugin usa diferentes métodos de aceleração por GPU dependendo da plataforma:

Windows e Linux: Usa Vulkan para aceleração por GPU, o que acelera significativamente o processo de reconhecimento
Mac e iOS: Usa Metal para aceleração por GPU, oferecendo desempenho comparável, se não mais rápido, à aceleração Vulkan do Windows ou Linux
Outras plataformas: Usa CPU + intrínsecos para aceleração (pode ser mais lento, como no Android ou Meta Quest, quando executado nativamente)

Recursos Adicionais

Obtenha no Fab
Site do produto
Baixar Demo (Windows)
Servidor de suporte no Discord
Tutorial em vídeo
Suporte do Plugin & Desenvolvimento Personalizado: [email protected] (soluções sob medida para equipes e organizações)

Como instalar​

Descrição básica​

Recursos Adicionais​

Como instalar

Descrição básica

Recursos Adicionais