Pular para o conteúdo principal

Detecção de Atividade de Voz (VAD)

Streaming Sound Wave, juntamente com seus tipos derivados, como Capturable Sound Wave, suporta Detecção de Atividade de Voz (VAD). O VAD filtra os dados de áudio recebidos para preencher o buffer interno apenas quando a voz é detectada.

O plugin oferece duas implementações de VAD:

A implementação padrão utiliza libfvad, uma biblioteca leve de detecção de atividade de voz que funciona de forma eficiente em todas as plataformas e versões do engine suportadas pelo Runtime Audio Importer.

Uso Básico

Para ativar o VAD após criar uma sound wave, use a função ToggleVAD:

Toggle VAD node

Após ativar o VAD, você pode redefini-lo a qualquer momento:

Nó Reset VAD

Configurações Padrão do VAD

Ao usar o provedor VAD padrão, você pode ajustar sua agressividade alterando o modo VAD:

Nó Set VAD Mode

O parâmetro mode controla quão agressivamente o VAD filtra o áudio. Valores mais altos são mais restritivos, significando que têm menor probabilidade de reportar falsos positivos, mas podem perder alguns trechos de fala.

Provedores de VAD

Após ativar o VAD com a função ToggleVAD, você pode escolher entre diferentes provedores de Voice Activity Detection para atender suas necessidades. O provedor padrão é interno, enquanto provedores adicionais como o Silero VAD estão disponíveis através de plugins de extensão.

Nó Set VAD Provider

Extensão Silero VAD

O Silero VAD fornece detecção de fala mais precisa usando redes neurais. Para usá-lo:

  1. Certifique-se de que o plugin Runtime Audio Importer já está instalado no seu projeto
  2. Baixe a extensão Silero VAD do Google Drive
  3. Extraia a pasta do arquivo baixado para a pasta Plugins do seu projeto (crie esta pasta se não existir)
  4. Recompile seu projeto (esta extensão requer um projeto C++)
important
  • O VAD padrão funciona com todas as versões da engine suportadas pelo Runtime Audio Importer (UE 4.24, 4.25, 4.26, 4.27, 5.0, 5.1, 5.2, 5.3, 5.4, 5.5 e 5.6)
  • O Silero VAD suporta Unreal Engine 4.27 e todas as versões UE5 (4.27, 5.0, 5.1, 5.2, 5.3, 5.4, 5.5 e 5.6)
  • O Silero VAD está disponível atualmente apenas para Windows
  • Esta extensão é fornecida como código-fonte e requer um projeto C++ para uso
  • Para mais informações sobre como construir plugins manualmente, consulte o tutorial Building Plugins

Uma vez instalado, você pode selecioná-lo como seu provedor VAD usando a função SetVADProvider com a classe Silero como provedor.

Detecção de início e fim de fala

O Voice Activity Detection (VAD) não apenas detecta a presença de fala, mas também permite detectar o início e o fim da atividade de fala. Isso é útil para acionar eventos quando a fala começa ou termina durante a reprodução ou captura.

Você pode personalizar a sensibilidade da detecção de início e fim de fala ajustando parâmetros como a duração mínima da fala e a duração do silêncio. Esses parâmetros ajudam a afinar a detecção para evitar falsos positivos, como capturar ruídos breves ou pausas muito curtas entre falas.

Duração Mínima da Fala

O parâmetro Duração Mínima da Fala define a quantidade mínima de atividade de voz contínua necessária para acionar um evento de início de fala. Isso ajuda a filtrar ruídos breves que não devem ser considerados como fala, garantindo que apenas atividade de voz sustentada seja reconhecida. O valor padrão para Duração Mínima da Fala é 300 milissegundos.

Nó Set Minimum Speech Duration

Duração do Silêncio

O parâmetro Duraçao do Silêncio define o tempo de silêncio necessário para acionar um evento de fim de fala. Isso evita que a detecção de fala termine prematuramente durante pausas naturais entre palavras ou frases. O valor padrão para Duração do Silêncio é 500 milissegundos.

Nó Definir Duração do Silêncio

Vinculando a Delegados de Fala

Você pode vincular a delegados específicos quando a fala começa ou termina. Isso é útil para acionar comportamentos personalizados com base na atividade de fala, como iniciar ou parar o reconhecimento de texto, ou ajustar o volume de outras fontes de áudio.

Bind Event To On Speech Started Bind Event To On Speech Ended

Comparando Provedores de VAD

VAD Padrão (libfvad)

Vantagens:

  • Leve e eficiente
  • Funciona em todas as plataformas
  • Uso mínimo de recursos
  • Adequado para dispositivos móveis e de baixo poder

Melhor para:

  • Detecção simples de voz em ambientes silenciosos
  • Aplicações móveis
  • Projetos onde desempenho é prioridade
  • Quando suporte universal a plataformas é necessário