Aller au contenu principal

Détection d'Activité Vocale

Streaming Sound Wave, ainsi que ses types dérivés comme Capturable Sound Wave, prennent en charge la Détection d'Activité Vocale (VAD). Le VAD filtre les données audio entrantes pour remplir le tampon interne uniquement lorsque de la voix est détectée.

Le plugin propose deux implémentations de VAD :

L'implémentation par défaut utilise libfvad, une bibliothèque légère de détection d'activité vocale qui fonctionne efficacement sur toutes les plateformes et versions du moteur prises en charge par Runtime Audio Importer.

Utilisation Basique

Pour activer le VAD après avoir créé une onde sonore, utilisez la fonction ToggleVAD :

Toggle VAD node

Après avoir activé la VAD, vous pouvez la réinitialiser à tout moment :

Nœud Reset VAD

Paramètres VAD par défaut

Lorsque vous utilisez le fournisseur VAD par défaut, vous pouvez ajuster son agressivité en modifiant le mode VAD :

Nœud Set VAD Mode

Le paramètre mode contrôle l'agressivité du filtrage VAD sur l'audio. Des valeurs plus élevées sont plus restrictives, ce qui signifie qu'elles sont moins susceptibles de signaler des faux positifs mais pourraient manquer certains segments de parole.

Fournisseurs de VAD

Après avoir activé le VAD avec la fonction ToggleVAD, vous pouvez choisir entre différents fournisseurs de détection d'activité vocale pour répondre à vos besoins. Le fournisseur par défaut est intégré, tandis que des fournisseurs supplémentaires comme Silero VAD sont disponibles via des extensions plugins.

Nœud Set VAD Provider

Extension Silero VAD

Silero VAD offre une détection vocale plus précise grâce à des réseaux neuronaux. Pour l'utiliser :

  1. Assurez-vous que le plugin Runtime Audio Importer est déjà installé dans votre projet
  2. Téléchargez l'extension Silero VAD depuis Google Drive
  3. Extrayez le dossier de l'archive téléchargée dans le dossier Plugins de votre projet (créez ce dossier s'il n'existe pas)
  4. Recompilez votre projet (cette extension nécessite un projet C++)
important
  • Le VAD par défaut fonctionne avec toutes les versions d'Unreal Engine supportées par Runtime Audio Importer (UE 4.24, 4.25, 4.26, 4.27, 5.0, 5.1, 5.2, 5.3, 5.4, 5.5, et 5.6)
  • Silero VAD supporte Unreal Engine 4.27 et toutes les versions UE5 (4.27, 5.0, 5.1, 5.2, 5.3, 5.4, 5.5, et 5.6)
  • Silero VAD est actuellement disponible uniquement pour Windows
  • Cette extension est fournie sous forme de code source et nécessite un projet C++ pour être utilisée
  • Pour plus d'informations sur la compilation manuelle de plugins, consultez le tutoriel Building Plugins

Une fois installé, vous pouvez le sélectionner comme fournisseur VAD en utilisant la fonction SetVADProvider avec le fournisseur de classe Silero.

Détection de début et fin de parole

La Voice Activity Detection (VAD) ne détecte pas seulement la présence de parole, mais permet également de détecter le début et la fin de l'activité vocale. Ceci est utile pour déclencher des événements lorsque la parole commence ou se termine pendant la lecture ou la capture.

Vous pouvez personnaliser la sensibilité de la détection de début et fin de parole en ajustant des paramètres tels que la durée minimale de parole et la durée de silence. Ces paramètres permettent d'affiner la détection pour éviter les faux positifs, comme capter des bruits brefs ou des pauses trop courtes entre les paroles.

Durée minimale de parole

Le paramètre Minimum Speech Duration définit la durée minimale d'activité vocale continue requise pour déclencher un événement de début de parole. Cela permet de filtrer les bruits brefs qui ne devraient pas être considérés comme de la parole, afin de s'assurer que seule une activité vocale soutenue est reconnue. La valeur par défaut pour Minimum Speech Duration est 300 millisecondes.

Nœud Set Minimum Speech Duration

Durée de silence

Le paramètre Durée de silence définit la durée de silence nécessaire pour déclencher un événement de fin de parole. Cela empêche la détection de parole de se terminer prématurément pendant les pauses naturelles entre les mots ou les phrases. La valeur par défaut pour Durée de silence est 500 millisecondes.

Nœud Set Silence Duration

Liaison avec les Délégués de Parole

Vous pouvez vous lier à des délégués spécifiques lorsque la parole commence ou se termine. Ceci est utile pour déclencher des comportements personnalisés basés sur l'activité vocale, comme démarrer ou arrêter la reconnaissance de texte, ou ajuster le volume d'autres sources audio.

Bind Event To On Speech Started Bind Event To On Speech Ended

Comparaison des fournisseurs de VAD

VAD par défaut (libfvad)

Avantages :

  • Léger et efficace
  • Fonctionne sur toutes les plateformes
  • Utilisation minimale des ressources
  • Adapté aux appareils mobiles et peu puissants

Idéal pour :

  • Détection vocale simple dans des environnements calmes
  • Applications mobiles
  • Projets où la performance est prioritaire
  • Quand un support universel des plateformes est requis