メインコンテンツまでスキップ

概要

Runtime Speech Recognizer ドキュメント

Runtime Speech Recognizerは、リアルタイムのオフライン音声認識を可能にするクロスプラットフォームプラグインです。Whisper OpenAI技術、特にwhisper.cppライブラリを基盤としており、プラグイン設定で事前選択可能な複数言語モデルをサポートしています。

インストール方法

初回起動時に言語モデルをインストールしてください(自動的にインストールを促すダイアログボックスが表示されます)。

基本説明

このプラグインは、whisper.cppライブラリに基づく先進的なアルゴリズムを使用したリアルタイム音声認識を提供します。ストリームまたは非ストリーム入力(ファイルやオーディオデータバッファなど)として提供される入力オーディオデータを、事前にトレーニングされた言語モデルと照合します。

Windowsでは、プラグインはVulkanを使用したGPUアクセラレーションを利用し、認識プロセスを大幅に高速化します。その他のプラットフォームでは、CPU + イントリンシック命令によるアクセラレーションを使用します。

追加リソース