メインコンテンツまでスキップ

概要

Runtime Speech Recognizer ドキュメント

Runtime Speech Recognizerは、リアルタイムのオフライン音声認識を可能にするクロスプラットフォームプラグインです。Whisper OpenAI技術、特にwhisper.cppライブラリをベースとしており、プラグイン設定で事前選択可能な複数の言語モデルをサポートしています。

インストール方法

初回起動時に言語モデルをインストールします(自動的にインストールを促すダイアログボックスが表示されます)。

基本説明

このプラグインは、whisper.cppライブラリ(寛容なMITライセンスで提供)に基づく高度なアルゴリズムを使用したリアルタイム音声認識を提供します。ストリームまたは非ストリーム入力(ファイルやオーディオデータのバッファなど)として提供される入力オーディオデータを、事前にトレーニングされた言語モデルと照合します。

プラグインはプラットフォームに応じて異なるGPUアクセラレーション方法を使用します:

  • Windows: Vulkanを使用したGPUアクセラレーションにより、認識プロセスを大幅に高速化
  • MacおよびiOS: Metalを使用したGPUアクセラレーションにより、WindowsのVulkanアクセラレーションに匹敵する(場合によってはそれ以上の)パフォーマンスを実現
  • その他のプラットフォーム: CPU + 組み込み関数を使用したアクセラレーション

追加リソース