Détection d'Activité Vocale
Streaming Sound Wave, ainsi que ses types dérivés comme Capturable Sound Wave, prennent en charge la Détection d'Activité Vocale (VAD). Le VAD filtre les données audio entrantes pour remplir le tampon interne uniquement lorsque de la voix est détectée.
Le plugin propose deux implémentations de VAD :
- Default VAD
- Silero VAD
L'implémentation par défaut utilise libfvad, une bibliothèque légère de détection d'activité vocale qui fonctionne efficacement sur toutes les plateformes et versions du moteur prises en charge par Runtime Audio Importer.
Disponible en tant qu'extension, Silero VAD est un détecteur d'activité vocale basé sur un réseau neuronal offrant une précision accrue, particulièrement dans les environnements bruyants. Il utilise l'apprentissage automatique pour mieux distinguer la parole du bruit de fond.
Utilisation Basique
Pour activer le VAD après avoir créé une onde sonore, utilisez la fonction ToggleVAD
:
- Blueprint
- C++
// Assuming StreamingSoundWave is a UE reference to a UStreamingSoundWave object (or its derived type, such as UCapturableSoundWave)
StreamingSoundWave->ToggleVAD(true);
Après avoir activé la VAD, vous pouvez la réinitialiser à tout moment :
- Blueprint
- C++
// Reset the VAD
StreamingSoundWave->ResetVAD();
Paramètres VAD par défaut
Lorsque vous utilisez le fournisseur VAD par défaut, vous pouvez ajuster son agressivité en modifiant le mode VAD :
- Blueprint
- C++
// Set the VAD mode (only works with the default VAD provider)
StreamingSoundWave->SetVADMode(ERuntimeVADMode::VeryAggressive);
Le paramètre mode contrôle l'agressivité du filtrage VAD sur l'audio. Des valeurs plus élevées sont plus restrictives, ce qui signifie qu'elles sont moins susceptibles de signaler des faux positifs mais pourraient manquer certains segments de parole.
Fournisseurs de VAD
Après avoir activé le VAD avec la fonction ToggleVAD
, vous pouvez choisir entre différents fournisseurs de détection d'activité vocale pour répondre à vos besoins. Le fournisseur par défaut est intégré, tandis que des fournisseurs supplémentaires comme Silero VAD sont disponibles via des extensions plugins.
- Blueprint
- C++
// Assuming StreamingSoundWave is a UE reference to a UStreamingSoundWave object (or its derived type, such as UCapturableSoundWave)
// Make sure to call ToggleVAD(true) before setting the provider
// Set the VAD provider to Silero VAD
StreamingSoundWave->SetVADProvider(URuntimeSileroVADProvider::StaticClass());
Extension Silero VAD
Silero VAD offre une détection vocale plus précise grâce à des réseaux neuronaux. Pour l'utiliser :
- Assurez-vous que le plugin Runtime Audio Importer est déjà installé dans votre projet
- Téléchargez l'extension Silero VAD depuis Google Drive
- Extrayez le dossier de l'archive téléchargée dans le dossier
Plugins
de votre projet (créez ce dossier s'il n'existe pas) - Recompilez votre projet (cette extension nécessite un projet C++)
- Le VAD par défaut fonctionne avec toutes les versions d'Unreal Engine supportées par Runtime Audio Importer (UE 4.24, 4.25, 4.26, 4.27, 5.0, 5.1, 5.2, 5.3, 5.4, 5.5, et 5.6)
- Silero VAD supporte Unreal Engine 4.27 et toutes les versions UE5 (4.27, 5.0, 5.1, 5.2, 5.3, 5.4, 5.5, et 5.6)
- Silero VAD est actuellement disponible uniquement pour Windows
- Cette extension est fournie sous forme de code source et nécessite un projet C++ pour être utilisée
- Pour plus d'informations sur la compilation manuelle de plugins, consultez le tutoriel Building Plugins
Une fois installé, vous pouvez le sélectionner comme fournisseur VAD en utilisant la fonction SetVADProvider
avec le fournisseur de classe Silero.
Détection de début et fin de parole
La Voice Activity Detection (VAD) ne détecte pas seulement la présence de parole, mais permet également de détecter le début et la fin de l'activité vocale. Ceci est utile pour déclencher des événements lorsque la parole commence ou se termine pendant la lecture ou la capture.
Vous pouvez personnaliser la sensibilité de la détection de début et fin de parole en ajustant des paramètres tels que la durée minimale de parole et la durée de silence. Ces paramètres permettent d'affiner la détection pour éviter les faux positifs, comme capter des bruits brefs ou des pauses trop courtes entre les paroles.
Durée minimale de parole
Le paramètre Minimum Speech Duration définit la durée minimale d'activité vocale continue requise pour déclencher un événement de début de parole. Cela permet de filtrer les bruits brefs qui ne devraient pas être considérés comme de la parole, afin de s'assurer que seule une activité vocale soutenue est reconnue. La valeur par défaut pour Minimum Speech Duration est 300 millisecondes.
- Blueprint
- C++
// Assuming StreamingSoundWave is a UE reference to a UStreamingSoundWave object (or its derived type, such as UCapturableSoundWave)
// Set the minimum speech duration
StreamingSoundWave->SetMinimumSpeechDuration(200);
Durée de silence
Le paramètre Durée de silence définit la durée de silence nécessaire pour déclencher un événement de fin de parole. Cela empêche la détection de parole de se terminer prématurément pendant les pauses naturelles entre les mots ou les phrases. La valeur par défaut pour Durée de silence est 500 millisecondes.
- Blueprint
- C++
// Assuming StreamingSoundWave is a UE reference to a UStreamingSoundWave object (or its derived type, such as UCapturableSoundWave)
// Set the silence duration
StreamingSoundWave->SetSilenceDuration(700);
Liaison avec les Délégués de Parole
Vous pouvez vous lier à des délégués spécifiques lorsque la parole commence ou se termine. Ceci est utile pour déclencher des comportements personnalisés basés sur l'activité vocale, comme démarrer ou arrêter la reconnaissance de texte, ou ajuster le volume d'autres sources audio.
- Blueprint
- C++
// Assuming StreamingSoundWave is a UE reference to a UStreamingSoundWave object (or its derived type, such as UCapturableSoundWave)
// Bind to the OnSpeechStartedNative delegate
StreamingSoundWave->OnSpeechStartedNative.AddWeakLambda(this, [this]()
{
// Handle the result when speech starts
});
// Bind to the OnSpeechEndedNative delegate
StreamingSoundWave->OnSpeechEndedNative.AddWeakLambda(this, [this]()
{
// Handle the result when speech ends
});
Comparaison des fournisseurs de VAD
- VAD par défaut
- Silero VAD
VAD par défaut (libfvad)
Avantages :
- Léger et efficace
- Fonctionne sur toutes les plateformes
- Utilisation minimale des ressources
- Adapté aux appareils mobiles et peu puissants
Idéal pour :
- Détection vocale simple dans des environnements calmes
- Applications mobiles
- Projets où la performance est prioritaire
- Quand un support universel des plateformes est requis
Silero VAD
Avantages :
- Précision accrue dans la détection vocale
- Meilleure tolérance au bruit dans des environnements difficiles
- Résultats plus cohérents avec différents locuteurs
- Options de configuration avancées pour un contrôle précis
Idéal pour :
- Applications nécessitant une détection vocale précise
- Environnements avec bruit de fond
- Systèmes de reconnaissance vocale
- Applications audio professionnelles
Silero VAD peut nécessiter plus de ressources computationnelles que le VAD par défaut.