メインコンテンツまでスキップ

概要

Runtime Speech Recognizer Documentation

Runtime Speech Recognizerは、クロスプラットフォーム対応のプラグインで、リアルタイムかつオフラインでの音声認識を可能にします。これはWhisper OpenAI technology、特にwhisper.cppライブラリに基づいており、プラグインの設定であらかじめ選択された複数の言語モデルをサポートしています。

インストール方法

初回実行時に言語モデルをインストールしてください(自動的に行うかを尋ねるダイアログボックスが表示されます)。

基本説明

このプラグインは、whisper.cppライブラリに基づく高度なアルゴリズムを使用してリアルタイム音声認識を提供します。ストリームまたは非ストリーム入力(ファイルやオーディオデータのバッファなど)として提供される音声データを、事前にトレーニングされた言語モデルと照合します。

Windowsでは、GPUアクセラレーションのためにVulkanを使用しており、これにより認識プロセスが大幅に高速化されます。他のプラットフォームでは、CPU + intrinsicsを使用してアクセラレーションを行います。

追加リソース