パフォーマンスを向上させる方法
このプラグインは、プラットフォームに応じて異なるGPUアクセラレーション手法を使用します。WindowsとLinuxではVulkan、MacとiOSプラットフォームではMetalを使用し、認識プロセスを大幅に高速化します。その他のプラットフォームでは、CPU + 組み込み関数によるアクセラレーションを使用します。ただし、以下の推奨事項に従うことで、プラグインのパフォーマンスをさらに向上させることができます:
-
音声活動検出(VAD)を使用する
固定の時間間隔を待つのではなく、ユーザーが話し終わるとすぐに音声を認識のために送信することで、認識器の応答性を向上させるために、音声活動検出(VAD)の使用を強くお勧めします。特にSilero VADがこの目的で推奨されています。詳細な実装手順については、音声活動検出のドキュメントを参照してください。
-
ステップサイズを短くする
デフォルトでは、ステップサイズは5000ミリ秒(5秒)に設定されており、キャプチャ中に5秒ごとに音声データが認識されます。音声データをより頻繁に認識したい場合は、ステップサイズを500ミリ秒(0.5秒)などに短縮することができます。ただし、VADがアクティブな場合(固定間隔を必要とする特定の要件がない限り、通常は推奨されます)、ステップサイズの短縮に頼らないことをお勧めします。音声起動コマンド認識や最終バッファ処理による自動初期化音声認識などの典型的なセットアップでVADを使用する場合、ユーザーが話し終わるとすぐに音声が認識されるためです。
-
より小さい言語モデルを使用する
モデルサイズを削減し、パフォーマンスを向上させるために、
Tiny Quantized (Q5_1)などのより小さい言語モデルの使用を検討することができます。言語モデルの選択方法については、こちらを参照してください。 -
認識状態管理を最適化する
マイク入力を使用する場合、音声認識器の不必要な停止と開始を避けてください。リソースの再割り当てが必要となる
StopSpeechRecognitionとStartSpeechRecognitionを頻繁に呼び出す代わりに、オーディオ入力を直接制御することを検討してください。例えば、キャプチャ可能なサウンドウェーブを使用する場合、認識スレッドをアクティブに保ちながら、StopCaptureとStartCaptureを使用してオーディオフローを管理します。