Aller au contenu principal

Détection d'activité vocale

Streaming Sound Wave, ainsi que ses types dérivés comme Capturable Sound Wave, prennent en charge la Voice Activity Detection (VAD). La VAD filtre les données audio entrantes pour remplir le tampon interne uniquement lorsque de la voix est détectée. Cette fonctionnalité est implémentée en utilisant libfvad.

Pour activer la VAD après avoir créé la sound wave, utilisez la fonction correspondante.

Toggle VAD node

Une fois le VAD activé, vous pouvez définir le mode VAD ou réinitialiser le VAD si nécessaire. Ces fonctions doivent être appelées uniquement lorsque le VAD est activé.

Set VAD Mode node Reset VAD node

Détection de début et fin de parole

La détection d'activité vocale (Voice Activity Detection) ne détecte pas seulement la présence de parole, mais permet également d'identifier le début et la fin d'une séquence vocale. Ceci est utile pour déclencher des événements lorsque la parole commence ou s'arrête pendant la lecture ou l'enregistrement.

Vous pouvez personnaliser la sensibilité de la détection de début et fin de parole en ajustant des paramètres tels que la durée minimale de parole et la durée de silence. Ces paramètres permettent d'affiner la détection pour éviter les faux positifs, comme la capture de bruits brefs ou de pauses trop courtes entre les paroles.

Durée minimale de parole

Le paramètre Durée minimale de parole (Minimum Speech Duration) définit la durée minimale d'activité vocale continue nécessaire pour déclencher un événement de début de parole. Cela permet de filtrer les bruits brefs qui ne devraient pas être considérés comme de la parole, afin de s'assurer que seule une activité vocale soutenue est reconnue. La valeur par défaut pour Durée minimale de parole est 300 millisecondes.

Nœud Set Minimum Speech Duration

Durée du Silence

Le paramètre Silence Duration définit la durée de silence nécessaire pour déclencher un événement de fin de parole. Cela empêche la détection de parole de se terminer prématurément lors des pauses naturelles entre les mots ou les phrases. La valeur par défaut pour Silence Duration est 500 millisecondes.

Nœud Set Silence Duration

Liaison avec les Délégués de Parole

Vous pouvez vous lier à des délégués spécifiques lorsque la parole commence ou se termine. Ceci est utile pour déclencher des comportements personnalisés basés sur l'activité vocale, comme démarrer ou arrêter la reconnaissance de texte, ou ajuster le volume d'autres sources audio.

Bind Event To On Speech Started Bind Event To On Speech Ended