본문으로 건너뛰기

음성 활동 감지

스트리밍 사운드 웨이브와 그 파생 유형인 캡처 가능한 사운드 웨이브는 음성 활동 감지(VAD)를 지원합니다. VAD는 음성이 감지될 때에만 내부 버퍼를 채우도록 들어오는 오디오 데이터를 필터링합니다. 이 기능은 libfvad를 사용하여 구현됩니다.

사운드 웨이브를 생성한 후, 해당 기능을 사용하여 VAD를 활성화할 수 있습니다.

VAD 노드 전환

VAD가 활성화되면 VAD 모드를 설정하거나 필요한 경우 VAD를 재설정할 수 있습니다. 이러한 함수는 VAD가 활성화된 경우에만 호출해야 합니다.

VAD 모드 설정 노드 VAD 재설정 노드

음성 시작 및 종료 감지

Voice Activity Detection은 음성의 존재를 감지할 뿐만 아니라 음성 활동의 시작과 끝도 감지할 수 있습니다. 이는 재생이나 캡처 중에 음성이 시작되거나 끝날 때 이벤트를 트리거하는 데 유용합니다.

최소 음성 지속 시간 및 침묵 지속 시간과 같은 매개변수를 조정하여 음성 시작 및 종료 감지의 민감도를 사용자 정의할 수 있습니다. 이러한 매개변수는 짧은 소음이나 음성 간 너무 짧은 일시 정지를 감지하지 않도록 세밀 조정하는 데 도움이 됩니다.

최소 음성 지속 시간

최소 음성 지속 시간 매개변수는 음성 시작 이벤트를 트리거하기 위해 필요한 연속 음성 활동의 최소 시간을 설정합니다. 이는 음성으로 간주되어서는 안 되는 짧은 소음을 걸러내고 지속적인 음성 활동만 인식되도록 돕습니다. 최소 음성 지속 시간의 기본값은 300밀리초입니다.

최소 음성 지속 시간 설정 노드

침묵 지속 시간

침묵 지속 시간 매개변수는 음성 종료 이벤트를 트리거하기 위해 필요한 침묵의 지속 시간을 설정합니다. 이는 단어 또는 문장 사이의 자연스러운 일시 정지 동안 음성 감지가 조기에 끝나는 것을 방지합니다. 침묵 지속 시간의 기본값은 500밀리초입니다.

Set Silence Duration node

음성 대리자에 바인딩하기

음성이 시작되거나 끝날 때 특정 대리자에 바인딩할 수 있습니다. 이는 텍스트 인식을 시작하거나 중지하거나, 다른 오디오 소스의 볼륨을 조절하는 등의 음성 활동에 기반한 커스텀 동작을 트리거하는 데 유용합니다.

On Speech Started에 이벤트 바인딩 On Speech Ended에 이벤트 바인딩