メインコンテンツまでスキップ

パフォーマンスを向上させる方法

このプラグインは、プラットフォームに応じて異なるGPUアクセラレーション方法を使用します。WindowsではVulkan、MacおよびiOSプラットフォームではMetalを使用し、認識プロセスを大幅に高速化します。その他のプラットフォームでは、CPU + 組み込み関数を使用して高速化します。ただし、以下の推奨事項に従うことで、プラグインのパフォーマンスをさらに向上させることができます:

  1. Voice Activity Detection (VAD) を使用する

    認識応答性を向上させるために、Voice Activity Detectionを使用することを強く推奨します。固定時間間隔を待つ代わりに、ユーザーが話し終わるとすぐに音声を認識用に送信します。この目的には特にSilero VADが推奨されます。詳細な実装手順については、Voice Activity Detection ドキュメントを参照してください。

  2. ステップサイズを減らす

    デフォルトでは、ステップサイズは5000ミリ秒(5秒)に設定されており、キャプチャ中に5秒ごとに音声データが認識されます。音声データをより頻繁に認識したい場合は、ステップサイズを500ミリ秒(0.5秒)などに減らすことができます。ただし、VADがアクティブな場合(特定の要件で固定間隔が必要でない限り通常推奨されます)、ステップサイズの減少に頼らないことをお勧めします。Voice Activated Command RecognitionAuto-Initializing Voice Recognition with Final Buffer Processingのような典型的なセットアップでVADを使用する場合、ユーザーが話し終わるとすぐに音声が認識されます。

  3. より小さい言語モデルを使用する

    モデルサイズを減らし、パフォーマンスを向上させるために、Tiny Quantized (Q5_1)などのより小さい言語モデルの使用を検討してください。言語モデルの選択方法についてはこちらを参照してください。

  4. 認識状態管理を最適化する

    マイク入力を使用する場合、音声認識器の不必要な停止と開始を避けてください。リソースの再割り当てが必要なStopSpeechRecognitionStartSpeechRecognitionを頻繁に呼び出す代わりに、オーディオ入力を直接制御することを検討してください。例えば、capturable sound waveを使用する場合、認識スレッドをアクティブに保ちながら、StopCaptureStartCaptureを使用してオーディオフローを管理します。