Detecção de Atividade de Voz

Streaming Sound Wave, juntamente com seus tipos derivados, como Capturable Sound Wave, suporta Detecção de Atividade de Voz (VAD). O VAD filtra os dados de áudio recebidos para preencher o buffer interno apenas quando a voz é detectada.

O plugin oferece duas implementações de VAD:

VAD Padrão
Silero VAD

A implementação padrão usa libfvad, uma biblioteca leve de detecção de atividade de voz que funciona com eficiência em todas as plataformas e versões do motor suportadas pelo Runtime Audio Importer.

Uso Básico

Para ativar o VAD após criar uma onda sonora, use a função ToggleVAD:

Blueprint
C++

Nó Toggle VAD

// Assuming StreamingSoundWave is a UE reference to a UStreamingSoundWave object (or its derived type, such as UCapturableSoundWave)
StreamingSoundWave->ToggleVAD(true);

Após ativar o VAD, você pode redefini-lo a qualquer momento:

Blueprint
C++

Nó Reset VAD

// Reset the VAD
StreamingSoundWave->ResetVAD();

Configurações Padrão do VAD

Ao usar o provedor VAD padrão, você pode ajustar sua agressividade alterando o modo VAD:

Blueprint
C++

Nó Set VAD Mode

// Set the VAD mode (only works with the default VAD provider)
StreamingSoundWave->SetVADMode(ERuntimeVADMode::VeryAggressive);

O parâmetro mode controla quão agressivamente o VAD filtra o áudio. Valores mais altos são mais restritivos, significando que são menos propensos a relatar falsos positivos, mas podem perder alguma fala.

Provedores de VAD

Após habilitar o VAD com a função ToggleVAD, você pode escolher entre diferentes provedores de Detecção de Atividade de Voz para atender às suas necessidades. O provedor padrão é integrado, enquanto provedores adicionais, como o Silero VAD, estão disponíveis através de plugins de extensão.

Blueprint
C++

Nó Set VAD Provider

// Assuming StreamingSoundWave is a UE reference to a UStreamingSoundWave object (or its derived type, such as UCapturableSoundWave)
// Make sure to call ToggleVAD(true) before setting the provider

// Set the VAD provider to Silero VAD
StreamingSoundWave->SetVADProvider(URuntimeSileroVADProvider::StaticClass());

Extensão Silero VAD

O Silero VAD fornece detecção de fala mais precisa usando redes neurais. Para usá-lo:

Certifique-se de que o plugin Runtime Audio Importer já está instalado em seu projeto
Para UE 5.5 e anteriores: Antes de baixar o plugin de extensão Silero VAD, certifique-se de que o NNERuntimeORT está desativado em seu projeto. Ter o NNERuntimeORT ativado pode causar travamentos ao usar o Silero VAD nessas versões do motor devido a conflitos
Baixe o plugin de extensão Silero VAD do Google Drive
Extraia a pasta do arquivo baixado para a pasta Plugins do seu projeto (crie esta pasta se ela não existir)
Para UE 5.6 e posteriores: Edite o arquivo RuntimeAudioImporterSileroVAD.uplugin para adicionar a dependência do NNERuntimeORT. No campo "Plugins", após a inclusão do RuntimeAudioImporter, adicione:

   ,
   {
       "Name": "NNERuntimeORT",
       "Enabled": true
   }

Recompile seu projeto (esta extensão requer um projeto C++)

important

O VAD padrão funciona com todas as versões do engine suportadas pelo Runtime Audio Importer (UE 4.24, 4.25, 4.26, 4.27, 5.0, 5.1, 5.2, 5.3, 5.4, 5.5, 5.6 e 5.7)
O Silero VAD suporta Unreal Engine 4.27 e todas as versões do UE5 (4.27, 5.0, 5.1, 5.2, 5.3, 5.4, 5.5, 5.6 e 5.7)
UE 5.5 e anteriores: O NNERuntimeORT deve ser desativado antes de usar o Silero VAD para evitar travamentos devido a conflitos de plugins
Requisito UE 5.6+: A partir do Unreal Engine 5.6, a extensão Silero VAD requer que a dependência do plugin NNERuntimeORT seja adicionada manualmente ao arquivo .uplugin
O Silero VAD está disponível para Windows, Linux, Mac, Android (incluindo Meta Quest) e iOS
Esta extensão é fornecida como código-fonte e requer um projeto C++ para ser usada
Para mais informações sobre como compilar plugins manualmente, consulte o tutorial de Construção de Plugins

Uma vez instalado, você pode selecioná-lo como seu provedor de VAD usando a função SetVADProvider com a classe de provedor Silero.

Detecção de Início e Fim da Fala

A Detecção de Atividade de Voz não apenas detecta a presença de fala, mas também permite a detecção do início e do fim da atividade de fala. Isso é útil para acionar eventos quando a fala começa ou termina durante a reprodução ou captura.

Você pode personalizar a sensibilidade da detecção de início e fim da fala ajustando parâmetros como a duração mínima da fala e a duração do silêncio. Esses parâmetros ajudam a ajustar finamente a detecção para evitar falsos positivos, como capturar ruídos breves ou pausas muito curtas entre a fala.

Duração Mínima da Fala

O parâmetro Duração Mínima da Fala define a quantidade mínima de atividade de voz contínua necessária para acionar um evento de início de fala. Isso ajuda a filtrar ruídos breves que não devem ser considerados como fala, para garantir que apenas a atividade de voz sustentada seja reconhecida. O valor padrão para Duração Mínima da Fala é 300 milissegundos.

Blueprint
C++

Nó Definir Duração Mínima da Fala

// Assuming StreamingSoundWave is a UE reference to a UStreamingSoundWave object (or its derived type, such as UCapturableSoundWave)

// Set the minimum speech duration
StreamingSoundWave->SetMinimumSpeechDuration(200);

Duração do Silêncio

O parâmetro Duração do Silêncio define a duração do silêncio necessária para acionar um evento de fim de fala. Isso evita que a detecção de fala termine prematuramente durante pausas naturais entre palavras ou frases. O valor padrão para Duração do Silêncio é 500 milissegundos.

Blueprint
C++

Nó Definir Duração do Silêncio

// Assuming StreamingSoundWave is a UE reference to a UStreamingSoundWave object (or its derived type, such as UCapturableSoundWave)

// Set the silence duration
StreamingSoundWave->SetSilenceDuration(700);

Vinculando aos Delegados de Fala

Você pode vincular a delegados específicos quando a fala começa ou termina. Isso é útil para acionar comportamentos personalizados com base na atividade de fala, como iniciar ou parar o reconhecimento de texto, ou ajustar o volume de outras fontes de áudio.

Blueprint
C++

Vincular Evento ao On Speech Started Vincular Evento ao On Speech Ended

// Assuming StreamingSoundWave is a UE reference to a UStreamingSoundWave object (or its derived type, such as UCapturableSoundWave)

// Bind to the OnSpeechStartedNative delegate
StreamingSoundWave->OnSpeechStartedNative.AddWeakLambda(this, [this]()
{
  // Handle the result when speech starts
});

// Bind to the OnSpeechEndedNative delegate
StreamingSoundWave->OnSpeechEndedNative.AddWeakLambda(this, [this]()
{
  // Handle the result when speech ends
});

Comparando Provedores de VAD

VAD Padrão
Silero VAD

VAD Padrão (libfvad)

Vantagens:

Leve e eficiente
Funciona em todas as plataformas
Uso mínimo de recursos
Adequado para dispositivos móveis e de baixo poder

Melhor para:

Detecção de voz simples em ambientes silenciosos
Aplicações móveis
Projetos onde o desempenho é uma prioridade
Quando é necessário suporte universal de plataforma

Uso Básico​

Configurações Padrão do VAD​

Provedores de VAD​

Extensão Silero VAD​

Detecção de Início e Fim da Fala​

Duração Mínima da Fala​

Duração do Silêncio​

Vinculando aos Delegados de Fala​

Comparando Provedores de VAD​

VAD Padrão (libfvad)​

Silero VAD​