音声活動検出

ストリーミングサウンドウェーブと、キャプチャ可能サウンドウェーブなどの派生型は、音声活動検出（VAD）をサポートしています。VADは、音声が検出された場合にのみ内部バッファを埋めるために、入力されるオーディオデータをフィルタリングします。

このプラグインは2つのVAD実装を提供します：

デフォルトVAD
Silero VAD

デフォルトの実装はlibfvadを使用します。これは軽量な音声活動検出ライブラリであり、Runtime Audio Importerがサポートするすべてのプラットフォームとエンジンバージョンで効率的に動作します。

基本的な使用方法

サウンドウェーブを作成した後にVADを有効にするには、ToggleVAD関数を使用します：

Blueprint
C++

Toggle VADノード

// Assuming StreamingSoundWave is a UE reference to a UStreamingSoundWave object (or its derived type, such as UCapturableSoundWave)
StreamingSoundWave->ToggleVAD(true);

VADを有効にした後、いつでもリセットできます：

Blueprint
C++

VADノードをリセット

// Reset the VAD
StreamingSoundWave->ResetVAD();

デフォルト VAD 設定

デフォルトの VAD プロバイダーを使用する場合、VAD モードを変更することでその積極性を調整できます:

Blueprint
C++

Set VAD Mode node

// Set the VAD mode (only works with the default VAD provider)
StreamingSoundWave->SetVADMode(ERuntimeVADMode::VeryAggressive);

modeパラメータは、VADがオーディオをフィルタリングする積極性を制御します。値が高いほど制限的になり、誤検出を報告する可能性は低くなりますが、一部の音声を見逃す可能性があります。

VADプロバイダー

ToggleVAD関数でVADを有効にした後、ニーズに合わせて異なるVoice Activity Detectionプロバイダーを選択できます。デフォルトのプロバイダーは組み込みですが、Silero VADなどの追加プロバイダーは拡張プラグインを通じて利用可能です。

Blueprint
C++

Set VAD Provider node

// Assuming StreamingSoundWave is a UE reference to a UStreamingSoundWave object (or its derived type, such as UCapturableSoundWave)
// Make sure to call ToggleVAD(true) before setting the provider

// Set the VAD provider to Silero VAD
StreamingSoundWave->SetVADProvider(URuntimeSileroVADProvider::StaticClass());

Silero VAD 拡張機能

Silero VAD はニューラルネットワークを使用して、より正確な音声検出を提供します。使用方法:

Runtime Audio Importer プラグインがプロジェクトに既にインストールされていることを確認してください
Silero VAD 拡張機能プラグインを Google Drive からダウンロードします
ダウンロードしたアーカイブからフォルダを抽出し、プロジェクトの Plugins フォルダに配置します (このフォルダが存在しない場合は作成してください)
UE 5.6 以降の場合: RuntimeAudioImporterSileroVAD.uplugin ファイルを編集して NNERuntimeORT 依存関係を追加します。"Plugins" フィールドで、RuntimeAudioImporter の包含の後に以下を追加します:

   ,
   {
       "Name": "NNERuntimeORT",
       "Enabled": true
   }

プロジェクトをリビルドしてください（この拡張機能はC++プロジェクトが必要です）

important

デフォルトのVADは、Runtime Audio Importerがサポートするすべてのエンジンバージョン（UE 4.24、4.25、4.26、4.27、5.0、5.1、5.2、5.3、5.4、5.5、および5.6）で動作します
Silero VADはUnreal Engine 4.27およびすべてのUE5バージョン（4.27、5.0、5.1、5.2、5.3、5.4、5.5、および5.6）をサポートします
UE 5.6+ 要件: Unreal Engine 5.6以降、Silero VAD拡張機能はNNERuntimeORTプラグインの依存関係を.upluginファイルに手動で追加する必要があります
Silero VADはWindows、Linux、Mac、Android（Meta Questを含む）、およびiOSで利用可能です
この拡張機能はソースコードとして提供され、使用するにはC++プロジェクトが必要です
プラグインを手動でビルドする方法の詳細については、Building Pluginsチュートリアルを参照してください

インストール後、SetVADProvider関数とSileroクラスプロバイダーを使用してVADプロバイダーとして選択できます。

音声開始と終了の検出

Voice Activity Detection（VAD）は音声の存在を検出するだけでなく、音声活動の開始と終了の検出も可能にします。これは、再生やキャプチャ中に音声が開始または終了したときにイベントをトリガーするのに役立ちます。

最小音声継続時間や無音継続時間などのパラメータを調整することで、音声開始と終了の検出の感度をカスタマイズできます。これらのパラメータは、短いノイズや音声間の短すぎるポーズなどの誤検出を避けるために検出を微調整するのに役立ちます。

最小音声継続時間

最小音声継続時間パラメータは、音声開始イベントをトリガーするために必要な連続した音声活動の最小量を設定します。これにより、音声と見なされるべきでない短いノイズをフィルタリングし、持続的な音声活動のみが認識されるようにします。最小音声継続時間のデフォルト値は300ミリ秒です。

Blueprint
C++

Set Minimum Speech Duration node

// Assuming StreamingSoundWave is a UE reference to a UStreamingSoundWave object (or its derived type, such as UCapturableSoundWave)

// Set the minimum speech duration
StreamingSoundWave->SetMinimumSpeechDuration(200);

無音期間 (Silence Duration)

無音期間 (Silence Duration) パラメータは、発話終了イベントをトリガーするために必要な無音の長さを設定します。これにより、単語や文の間の自然なポーズ中に音声検出が早期に終了するのを防ぎます。無音期間 (Silence Duration) のデフォルト値は 500ミリ秒 です。

Blueprint
C++

Set Silence Duration node

// Assuming StreamingSoundWave is a UE reference to a UStreamingSoundWave object (or its derived type, such as UCapturableSoundWave)

// Set the silence duration
StreamingSoundWave->SetSilenceDuration(700);

Speech デリゲートへのバインド

Speech が開始または終了したときに特定のデリゲートにバインドできます。これは、音声認識の開始や停止、他のオーディオソースの音量調整など、音声アクティビティに基づいてカスタムの動作をトリガーするのに役立ちます。

Blueprint
C++

Bind Event To On Speech Started Bind Event To On Speech Ended

// Assuming StreamingSoundWave is a UE reference to a UStreamingSoundWave object (or its derived type, such as UCapturableSoundWave)

// Bind to the OnSpeechStartedNative delegate
StreamingSoundWave->OnSpeechStartedNative.AddWeakLambda(this, [this]()
{
  // Handle the result when speech starts
});

// Bind to the OnSpeechEndedNative delegate
StreamingSoundWave->OnSpeechEndedNative.AddWeakLambda(this, [this]()
{
  // Handle the result when speech ends
});

VADプロバイダーの比較

Default VAD
Silero VAD

Default VAD (libfvad)

利点:

軽量で効率的
すべてのプラットフォームで動作
最小限のリソース使用量
モバイルおよび低電力デバイスに適している

最適な用途:

静かな環境でのシンプルな音声検出
モバイルアプリケーション
パフォーマンスが優先されるプロジェクト
ユニバーサルなプラットフォームサポートが必要な場合

基本的な使用方法​

デフォルト VAD 設定​

VADプロバイダー​

Silero VAD 拡張機能​

音声開始と終了の検出​

最小音声継続時間​

無音期間 (Silence Duration)​

Speech デリゲートへのバインド​

VADプロバイダーの比較​

Default VAD (libfvad)​

Silero VAD​