Saltar al contenido principal

Descripción general

Documentación de Runtime Speech Recognizer

Runtime Speech Recognizer es un complemento multiplataforma que permite el reconocimiento de voz en tiempo real y sin conexión. Basado en la tecnología Whisper de OpenAI, particularmente en la biblioteca whisper.cpp, y admite múltiples modelos de lenguaje preseleccionados en la configuración del complemento con capacidades de detección automática de idioma.

Cómo instalar

En la primera ejecución, instale los modelos de lenguaje (aparecerá un cuadro de diálogo pidiéndole que lo haga automáticamente).

Descripción básica

Este complemento proporciona reconocimiento de voz en tiempo real utilizando algoritmos avanzados basados en la biblioteca whisper.cpp, que está disponible bajo la permisiva licencia MIT. Compara los datos de audio entrantes, proporcionados como una transmisión o entrada no secuencial (como un archivo o búfer de datos de audio), con modelos de lenguaje preentrenados. Al utilizar modelos multilingües, el complemento puede detectar automáticamente el idioma hablado y proporcionar esta información junto con el texto reconocido.

El complemento utiliza diferentes métodos de aceleración por GPU según la plataforma:

  • Windows: Utiliza Vulkan para la aceleración por GPU, lo que acelera significativamente el proceso de reconocimiento
  • Mac e iOS: Utiliza Metal para la aceleración por GPU, ofreciendo un rendimiento comparable, si no superior, a la aceleración Vulkan de Windows
  • Otras plataformas: Utiliza CPU + intrínsecos para la aceleración (puede ser más lento, como en Android o Meta Quest, cuando se ejecuta de forma nativa)

Recursos adicionales