Saltar al contenido principal

Cómo mejorar el rendimiento

El plugin utiliza diferentes métodos de aceleración por GPU según la plataforma: Vulkan en Windows y Metal en plataformas Mac e iOS, lo que acelera significativamente el proceso de reconocimiento. En otras plataformas, el plugin utiliza la CPU + intrínsecos para la aceleración. Sin embargo, puedes mejorar aún más el rendimiento del plugin siguiendo las recomendaciones a continuación:

  1. Usar Detección de Actividad de Voz (VAD)

    Se recomienda encarecidamente utilizar la Detección de Actividad de Voz para mejorar la capacidad de respuesta del reconocedor enviando el habla para su reconocimiento tan pronto como el usuario deje de hablar, en lugar de esperar intervalos de tiempo fijos. El Silero VAD es especialmente recomendado para este propósito. Para instrucciones detalladas de implementación, consulta la documentación de Detección de Actividad de Voz.

  2. Reducir el Tamaño del Paso

    Por defecto, el tamaño del paso es de 5000 ms (5 segundos), lo que significa que los datos de audio se reconocen cada 5 segundos durante la captura. Si deseas reconocer los datos de audio con más frecuencia, puedes reducir el tamaño del paso, por ejemplo a 500 ms (0.5 segundos). Sin embargo, si el VAD está activo (lo que normalmente se recomienda a menos que tengas requisitos específicos que necesiten intervalos fijos), se recomienda no depender de la reducción del tamaño del paso. Cuando se usa VAD en configuraciones típicas como Reconocimiento de Comandos Activados por Voz o Reconocimiento de Voz con Auto-Inicialización y Procesamiento de Búfer Final, el habla se reconocerá tan pronto como el usuario deje de hablar de todos modos.

  3. Usar un Modelo de Lenguaje Más Pequeño

    Puedes considerar usar un modelo de lenguaje más pequeño, como Tiny Quantized (Q5_1), para reducir el tamaño del modelo y mejorar el rendimiento. Las instrucciones sobre cómo seleccionar un modelo de lenguaje se pueden encontrar aquí.

  4. Optimizar la Gestión del Estado de Reconocimiento

    Cuando trabajes con entrada de micrófono, evita paradas e inicios innecesarios del reconocedor de voz. En lugar de llamar frecuentemente a StopSpeechRecognition y StartSpeechRecognition, lo que requiere reasignación de recursos, considera controlar la entrada de audio directamente. Por ejemplo, con una onda de sonido capturable, usa StopCapture y StartCapture para gestionar el flujo de audio mientras mantienes activo el hilo de reconocimiento.