メインコンテンツまでスキップ

概要

Runtime Speech Recognizer ドキュメント

Runtime Speech Recognizerは、リアルタイムのオフライン音声認識を実現するクロスプラットフォームプラグインです。 Whisper OpenAI技術、特にwhisper.cppライブラリに基づいており、プラグインの設定で事前に選択された複数の言語モデルをサポートしています。

インストール方法

初回実行時に言語モデルをインストールします(自動で行うかどうかを尋ねるダイアログボックスが表示されます)。

基本的な説明

このプラグインは、whisper.cppライブラリに基づく高度なアルゴリズムを使用してリアルタイムの音声認識を提供します。流れとして提供されるオーディオデータ、もしくはファイルやオーディオデータのバッファのような非ストリーム入力を、事前にトレーニングされた言語モデルと対比させます。

Windows上では、プラグインはGPUアクセラレーションのためにVulkanを使用し、認識プロセスを大幅に高速化します。他のプラットフォームでは、CPU + intrinsicsを使用してアクセラレーションを行います。