Aller au contenu principal

Comment améliorer les performances

Le plugin utilise différentes méthodes d'accélération GPU selon la plateforme : Vulkan sur Windows et Metal sur les plateformes Mac et iOS, ce qui accélère considérablement le processus de reconnaissance. Sur les autres plateformes, le plugin utilise le CPU + intrinsics pour l'accélération. Cependant, vous pouvez encore améliorer les performances du plugin en suivant les recommandations ci-dessous :

  1. Utilisez la Détection d'Activité Vocale (VAD)

    Il est fortement recommandé d'utiliser la Détection d'Activité Vocale pour améliorer la réactivité du reconnaisseur en envoyant la parole pour reconnaissance dès que l'utilisateur arrête de parler, plutôt que d'attendre des intervalles de temps fixes. Le Silero VAD est particulièrement recommandé pour cet usage. Pour des instructions détaillées d'implémentation, consultez la documentation sur la Détection d'Activité Vocale.

  2. Diminuez la Taille du Pas

    Par défaut, la taille du pas est de 5000 ms (5 secondes), ce qui signifie que les données audio sont reconnues toutes les 5 secondes pendant la capture. Si vous souhaitez reconnaître les données audio plus fréquemment, vous pouvez diminuer la taille du pas, par exemple à 500 ms (0,5 secondes). Cependant, si la VAD est active (ce qui est généralement recommandé sauf si vous avez des besoins spécifiques nécessitant des intervalles fixes), il est conseillé de ne pas compter sur la diminution de la taille du pas. Lorsque vous utilisez la VAD dans des configurations typiques comme la Reconnaissance de Commandes Activée par la Voix ou la Reconnaissance Vocale Auto-Initialisante avec Traitement Final du Tampon, la parole sera reconnue dès que l'utilisateur arrête de parler de toute façon.

  3. Utilisez un Modèle de Langage Plus Petit

    Vous pouvez envisager d'utiliser un modèle de langage plus petit, comme Tiny Quantized (Q5_1), pour réduire la taille du modèle et améliorer les performances. Les instructions pour sélectionner un modèle de langage se trouvent ici.

  4. Optimisez la Gestion de l'État de Reconnaissance

    Lorsque vous travaillez avec une entrée microphone, évitez les arrêts et démarrages inutiles du reconnaisseur vocal. Au lieu d'appeler fréquemment StopSpeechRecognition et StartSpeechRecognition, ce qui nécessite une réallocation des ressources, envisagez de contrôler directement l'entrée audio. Par exemple, avec une onde sonore capturable, utilisez StopCapture et StartCapture pour gérer le flux audio tout en gardant le thread de reconnaissance actif.