Saltar al contenido principal

Descripción general

Documentación de Runtime Speech Recognizer

Runtime Speech Recognizer es un plugin multiplataforma que permite el reconocimiento de voz en tiempo real sin conexión. Basado en la tecnología Whisper de OpenAI, particularmente la biblioteca whisper.cpp, y soporta múltiples modelos de lenguaje preseleccionados en la configuración del plugin.

Cómo instalar

En la primera ejecución, instale los modelos de lenguaje (aparecerá un cuadro de diálogo pidiéndole que lo haga automáticamente).

Descripción básica

Este plugin proporciona reconocimiento de voz en tiempo real utilizando algoritmos avanzados basados en la biblioteca whisper.cpp. Coincide con los datos de audio entrantes, proporcionados como una entrada de flujo o no de flujo (como un archivo o un búfer de datos de audio), con modelos de lenguaje pre-entrenados.

En Windows, el plugin utiliza Vulkan para la aceleración de GPU, lo que acelera significativamente el proceso de reconocimiento. En otras plataformas, el plugin utiliza la CPU + intrínsecos para la aceleración.

Recursos adicionales