Descripción general
Runtime Speech Recognizer es un plugin multiplataforma que permite el reconocimiento de voz en tiempo real y sin conexión. Basado en la tecnología Whisper de OpenAI, en particular la biblioteca whisper.cpp, y soporta múltiples modelos de lenguaje pre-seleccionados en la configuración del plugin.
Cómo instalar
En la primera ejecución, instala los modelos de lenguaje (aparecerá un cuadro de diálogo pidiéndote que lo hagas automáticamente).
Descripción básica
Este plugin proporciona reconocimiento de voz en tiempo real utilizando algoritmos avanzados basados en la biblioteca whisper.cpp, que está disponible bajo la permisiva licencia MIT. Compara los datos de audio entrantes, proporcionados como un flujo o entrada no secuencial (como un archivo o búfer de datos de audio), con modelos de lenguaje pre-entrenados.
El plugin utiliza diferentes métodos de aceleración por GPU dependiendo de la plataforma:
- Windows: Utiliza Vulkan para la aceleración por GPU, lo que acelera significativamente el proceso de reconocimiento
- Mac e iOS: Utiliza Metal para la aceleración por GPU, ofreciendo un rendimiento comparable, si no superior, a la aceleración Vulkan de Windows
- Otras plataformas: Utiliza CPU + intrínsecos para la aceleración (puede ser más lento, como en Android o Meta Quest, cuando se ejecuta de forma nativa)
Recursos adicionales
- Consíguelo en Fab
- Sitio web del producto
- Descargar Demo (Windows)
- Servidor de soporte en Discord
- Tutorial en video
- Desarrollo personalizado: [email protected] (soluciones a medida para equipos y organizaciones)