Aller au contenu principal

Comment améliorer les performances

Le plugin utilise différentes méthodes d'accélération GPU selon la plateforme : Vulkan sur Windows et Linux, et Metal sur les plateformes Mac et iOS, ce qui accélère considérablement le processus de reconnaissance. Sur les autres plateformes, le plugin utilise le CPU + des intrinsèques pour l'accélération. Cependant, vous pouvez encore améliorer les performances du plugin en suivant les recommandations ci-dessous :

  1. Utilisez la Détection d'Activité Vocale (VAD)

    Il est fortement recommandé d'utiliser la Détection d'Activité Vocale pour améliorer la réactivité du reconnaisseur en envoyant la parole à reconnaître dès que l'utilisateur arrête de parler, plutôt que d'attendre des intervalles de temps fixes. Le Silero VAD est particulièrement recommandé à cet effet. Pour des instructions détaillées de mise en œuvre, consultez la documentation sur la Détection d'Activité Vocale.

  2. Réduisez la Taille du Pas

    Par défaut, la taille du pas est de 5000 ms (5 secondes), ce qui signifie que les données audio sont reconnues toutes les 5 secondes pendant la capture. Si vous souhaitez reconnaître les données audio plus fréquemment, vous pouvez réduire la taille du pas, par exemple à 500 ms (0,5 seconde). Cependant, si la VAD est active (ce qui est généralement recommandé, sauf si vous avez des besoins spécifiques nécessitant des intervalles fixes), il est conseillé de ne pas compter sur la réduction de la taille du pas. Lorsque vous utilisez la VAD dans des configurations typiques comme la Reconnaissance de Commandes Activée par la Voix ou le Traitement du Tampon Final avec Initialisation Automatique de la Reconnaissance Vocale, la parole sera reconnue dès que l'utilisateur arrête de parler de toute façon.

  3. Utilisez un Modèle de Langue Plus Petit

    Vous pouvez envisager d'utiliser un modèle de langue plus petit, tel que Tiny Quantized (Q5_1), pour réduire la taille du modèle et améliorer les performances. Les instructions sur la façon de sélectionner un modèle de langue se trouvent ici.

  4. Optimisez la Gestion de l'État de Reconnaissance

    Lorsque vous travaillez avec l'entrée du microphone, évitez les arrêts et démarrages inutiles du reconnaisseur vocal. Au lieu d'appeler fréquemment StopSpeechRecognition et StartSpeechRecognition, ce qui nécessite une réallocation des ressources, envisagez de contrôler directement l'entrée audio. Par exemple, avec une onde sonore capturable, utilisez StopCapture et StartCapture pour gérer le flux audio tout en gardant le thread de reconnaissance actif.