メインコンテンツまでスキップ

概要

Runtime Speech Recognizer Documentation

Runtime Speech Recognizer は、リアルタイムのオフライン音声認識を可能にするクロスプラットフォームプラグインです。Whisper OpenAI テクノロジー、特に whisper.cpp ライブラリを基にしており、自動言語検出機能を備えた、プラグイン設定で事前選択された複数の言語モデルをサポートしています。

インストール方法

初回実行時には、言語モデルをインストールしてください(自動的に実行するよう求めるダイアログボックスが表示されます)。

基本説明

このプラグインは、寛容な MIT ライセンスで利用可能な whisper.cpp ライブラリに基づく高度なアルゴリズムを使用して、リアルタイム音声認識を提供します。これは、ストリームまたは非ストリーム入力(ファイルやオーディオデータのバッファなど)として提供される入力オーディオデータを、事前にトレーニングされた言語モデルと照合します。多言語モデルを使用する場合、プラグインは話されている言語を自動的に検出し、認識されたテキストとともにこの情報を提供できます。

プラグインはプラットフォームに応じて異なる GPU アクセラレーション方法を使用します:

  • Windows: GPU アクセラレーションに Vulkan を使用し、認識プロセスを大幅に高速化します
  • Mac および iOS: GPU アクセラレーションに Metal を使用し、Windows の Vulkan アクセラレーションに匹敵する、あるいはそれ以上のパフォーマンスを提供します
  • その他のプラットフォーム: アクセラレーションに CPU + 組み込み関数を使用します(Android や Meta Quest でネイティブ実行する場合など、遅くなる可能性があります)

追加リソース