Cómo mejorar el rendimiento
El complemento utiliza diferentes métodos de aceleración por GPU según la plataforma: Vulkan en Windows y Linux, y Metal en plataformas Mac e iOS, lo que acelera significativamente el proceso de reconocimiento. En otras plataformas, el complemento utiliza la CPU + intrínsecos para la aceleración. Sin embargo, puede mejorar aún más el rendimiento del complemento siguiendo las recomendaciones a continuación:
-
Utilice Detección de Actividad de Voz (VAD)
Se recomienda encarecidamente utilizar la Detección de Actividad de Voz para mejorar la capacidad de respuesta del reconocedor enviando el habla para su reconocimiento tan pronto como el usuario deja de hablar, en lugar de esperar intervalos de tiempo fijos. El Silero VAD es particularmente recomendado para este propósito. Para instrucciones detalladas de implementación, consulte la documentación de Detección de Actividad de Voz.
-
Disminuya el Tamaño del Paso
Por defecto, el tamaño del paso es de 5000 ms (5 segundos), lo que significa que los datos de audio se reconocen cada 5 segundos durante la captura. Si desea reconocer los datos de audio con más frecuencia, puede disminuir el tamaño del paso, por ejemplo, a 500 ms (0.5 segundos). Sin embargo, si el VAD está activo (lo que normalmente se recomienda a menos que tenga requisitos específicos que necesiten intervalos fijos), se aconseja no depender de la disminución del tamaño del paso. Al usar VAD en configuraciones típicas como Reconocimiento de Comandos Activado por Voz o Reconocimiento de Voz con Inicialización Automática y Procesamiento de Búfer Final, el habla se reconocerá tan pronto como el usuario deje de hablar de todos modos.
-
Utilice un Modelo de Lenguaje Más Pequeño
Puede considerar usar un modelo de lenguaje más pequeño, como
Tiny Quantized (Q5_1), para reducir el tamaño del modelo y mejorar el rendimiento. Las instrucciones sobre cómo seleccionar un modelo de lenguaje se pueden encontrar aquí. -
Optimice la Gestión del Estado de Reconocimiento
Cuando trabaje con entrada de micrófono, evite detenciones e inicios innecesarios del reconocedor de voz. En lugar de llamar a
StopSpeechRecognitionyStartSpeechRecognitioncon frecuencia, lo que requiere la reasignación de recursos, considere controlar la entrada de audio directamente. Por ejemplo, con una onda sonora capturable, useStopCaptureyStartCapturepara gestionar el flujo de audio mientras mantiene activo el hilo de reconocimiento.