概要

Runtime Speech Recognizer は、リアルタイムのオフライン音声認識を可能にするクロスプラットフォームプラグインです。Whisper OpenAI 技術、特に whisper.cpp ライブラリをベースとしており、自動言語検出機能を備えたプラグイン設定で事前選択された複数の言語モデルをサポートしています。

インストール方法

初回実行時には、言語モデルをインストールしてください（自動的にインストールを促すダイアログボックスが表示されます）。

基本説明

このプラグインは、whisper.cpp ライブラリ（寛容な MIT ライセンスで提供）をベースとした高度なアルゴリズムを使用して、リアルタイム音声認識を提供します。ストリームまたは非ストリーム入力（ファイルやオーディオデータのバッファなど）として提供される入力オーディオデータを、事前にトレーニングされた言語モデルと照合します。多言語モデルを使用する場合、プラグインは話されている言語を自動的に検出し、認識されたテキストとともにこの情報を提供できます。

プラグインはプラットフォームに応じて異なる GPU アクセラレーション方法を使用します：

Windows および Linux: GPU アクセラレーションに Vulkan を使用し、認識プロセスを大幅に高速化します
Mac および iOS: GPU アクセラレーションに Metal を使用し、Windows や Linux の Vulkan アクセラレーションに匹敵する、あるいはそれ以上のパフォーマンスを提供します
その他のプラットフォーム: アクセラレーションに CPU + 組み込み関数を使用します（Android や Meta Quest でネイティブ実行する場合など、遅くなる可能性があります）

追加リソース

Fab で入手
製品ウェブサイト
デモをダウンロード (Windows)
Discord サポートサーバー
ビデオチュートリアル
プラグインサポート & カスタム開発: [email protected] (チームおよび組織向けのカスタマイズされたソリューション)

インストール方法​

基本説明​

追加リソース​

インストール方法

基本説明

追加リソース