パフォーマンスを向上させる方法

このプラグインは、プラットフォームに応じて異なるGPUアクセラレーション方法を使用します。WindowsではVulkan、MacおよびiOSプラットフォームではMetalを使用し、認識プロセスを大幅に高速化します。その他のプラットフォームでは、CPU + 組み込み関数を使用して高速化します。ただし、以下の推奨事項に従うことで、プラグインのパフォーマンスをさらに向上させることができます:

Voice Activity Detection (VAD) を使用する

認識応答性を向上させるために、Voice Activity Detectionを使用することを強く推奨します。固定時間間隔を待つ代わりに、ユーザーが話し終わるとすぐに音声を認識用に送信します。この目的には特にSilero VADが推奨されます。詳細な実装手順については、Voice Activity Detection ドキュメントを参照してください。
ステップサイズを減らす

デフォルトでは、ステップサイズは5000ミリ秒（5秒）に設定されており、キャプチャ中に5秒ごとに音声データが認識されます。音声データをより頻繁に認識したい場合は、ステップサイズを500ミリ秒（0.5秒）などに減らすことができます。ただし、VADがアクティブな場合（特定の要件で固定間隔が必要でない限り通常推奨されます）、ステップサイズの減少に頼らないことをお勧めします。Voice Activated Command RecognitionやAuto-Initializing Voice Recognition with Final Buffer Processingのような典型的なセットアップでVADを使用する場合、ユーザーが話し終わるとすぐに音声が認識されます。
より小さい言語モデルを使用する

モデルサイズを減らし、パフォーマンスを向上させるために、Tiny Quantized (Q5_1)などのより小さい言語モデルの使用を検討してください。言語モデルの選択方法についてはこちらを参照してください。
認識状態管理を最適化する

マイク入力を使用する場合、音声認識器の不必要な停止と開始を避けてください。リソースの再割り当てが必要なStopSpeechRecognitionとStartSpeechRecognitionを頻繁に呼び出す代わりに、オーディオ入力を直接制御することを検討してください。例えば、capturable sound waveを使用する場合、認識スレッドをアクティブに保ちながら、StopCaptureとStartCaptureを使用してオーディオフローを管理します。