Descripción general

Runtime Speech Recognizer es un complemento multiplataforma que permite el reconocimiento de voz en tiempo real y sin conexión. Basado en la tecnología Whisper de OpenAI, específicamente en la biblioteca whisper.cpp, y admite múltiples modelos de idiomas preseleccionados en la configuración del complemento con capacidades de detección automática de idioma.

Cómo instalar

En la primera ejecución, instale los modelos de idioma (aparecerá un cuadro de diálogo pidiéndole que lo haga automáticamente).

Descripción básica

Este complemento proporciona reconocimiento de voz en tiempo real utilizando algoritmos avanzados basados en la biblioteca whisper.cpp, que está disponible bajo la permisiva licencia MIT. Compara los datos de audio entrantes, proporcionados como una transmisión o entrada no secuencial (como un archivo o búfer de datos de audio), con modelos de idioma preentrenados. Al usar modelos multilingües, el complemento puede detectar automáticamente el idioma hablado y proporcionar esta información junto con el texto reconocido.

El complemento utiliza diferentes métodos de aceleración por GPU según la plataforma:

Windows y Linux: Utiliza Vulkan para la aceleración por GPU, lo que acelera significativamente el proceso de reconocimiento
Mac e iOS: Utiliza Metal para la aceleración por GPU, ofreciendo un rendimiento comparable, si no superior, a la aceleración Vulkan de Windows o Linux
Otras plataformas: Utiliza CPU + intrínsecos para la aceleración (puede ser más lento, como en Android o Meta Quest, cuando se ejecuta de forma nativa)

Recursos adicionales

Consíguelo en Fab
Sitio web del producto
Descargar Demo (Windows)
Servidor de soporte en Discord
Tutorial en video
Soporte del complemento y desarrollo personalizado: [email protected] (soluciones a medida para equipos y organizaciones)

Cómo instalar​

Descripción básica​

Recursos adicionales​

Cómo instalar

Descripción básica

Recursos adicionales