メインコンテンツまでスキップ

概要

Runtime Speech Recognizer ドキュメント

Runtime Speech Recognizer は、リアルタイムのオフライン音声認識を可能にするクロスプラットフォームプラグインです。Whisper OpenAI テクノロジー、特に whisper.cpp ライブラリをベースとしており、プラグインの設定であらかじめ選択された複数の言語モデルをサポートします。

インストール方法

初回実行時には、言語モデルをインストールしてください(自動的に実行を求めるダイアログボックスが表示されます)。

基本説明

このプラグインは、寛容な MIT ライセンスで利用可能な whisper.cpp ライブラリに基づく高度なアルゴリズムを使用して、リアルタイム音声認識を提供します。これは、ストリームまたは非ストリーム入力(ファイルやオーディオデータのバッファなど)として提供される入力オーディオデータを、事前にトレーニングされた言語モデルと照合します。

プラグインは、プラットフォームに応じて異なる GPU アクセラレーション方法を使用します:

  • Windows: GPU アクセラレーションに Vulkan を使用し、認識プロセスを大幅に高速化します
  • Mac および iOS: GPU アクセラレーションに Metal を使用し、Windows の Vulkan アクセラレーションに匹敵する、あるいはそれ以上のパフォーマンスを提供します
  • その他のプラットフォーム: アクセラレーションに CPU + 組み込み関数を使用します(Android や Meta Quest などでネイティブ実行する場合、遅くなる可能性があります)

追加リソース