Saltar al contenido principal

Descripción general

Documentación de Runtime Speech Recognizer

Runtime Speech Recognizer es un plugin multiplataforma que permite el reconocimiento de voz en tiempo real y sin conexión. Basado en la tecnología Whisper de OpenAI, específicamente en la biblioteca whisper.cpp, y soporta múltiples modelos de lenguaje pre-seleccionados en los ajustes del plugin.

Cómo instalar

En la primera ejecución, instala los modelos de lenguaje (aparecerá un cuadro de diálogo pidiéndote que lo hagas automáticamente).

Descripción básica

Este plugin proporciona reconocimiento de voz en tiempo real utilizando algoritmos avanzados basados en la biblioteca whisper.cpp. Compara los datos de audio entrantes, proporcionados como flujo o entrada no secuencial (como un archivo o búfer de datos de audio), con modelos de lenguaje pre-entrenados.

En Windows, el plugin utiliza Vulkan para aceleración por GPU, lo cual acelera significativamente el proceso de reconocimiento. En otras plataformas, el plugin utiliza la CPU + intrínsecos para aceleración.

Recursos adicionales