Saltar al contenido principal

Descripción General

Documentación de Runtime Speech Recognizer

Runtime Speech Recognizer es un plugin multiplataforma que habilita el reconocimiento de voz en tiempo real y sin conexión. Basado en la tecnología Whisper de OpenAI, en particular la biblioteca whisper.cpp, y admite múltiples modelos de lenguaje preseleccionados en la configuración del plugin.

Cómo instalar

En la primera ejecución, instala los modelos de lenguaje (aparecerá un cuadro de diálogo pidiéndote hacer esto automáticamente).

Descripción básica

Este plugin proporciona reconocimiento de voz en tiempo real utilizando algoritmos avanzados basados en la biblioteca whisper.cpp. Coincide con los datos de audio entrantes, proporcionados como una entrada de flujo o no flujo (como un archivo o un buffer de datos de audio), contra modelos de lenguaje pre-entrenados.

En Windows, el plugin utiliza Vulkan para la aceleración por GPU, lo que acelera significativamente el proceso de reconocimiento. En otras plataformas, el plugin utiliza la CPU + intrinsics para la aceleración.