メインコンテンツまでスキップ

Runtime Speech Recognizer

Runtime Speech Recognizer プラグインのドキュメント。

Fabで入手
製品ウェブサイト
デモ版ダウンロード (Windows)
Discordサポートサーバー
ビデオチュートリアル
カスタム開発: [email protected] (チーム・組織向けのテーラーメードソリューション)

📄️ 概要

Runtime Speech Recognizer ドキュメント

📄️ プラグインの使用方法

Runtime Speech Recognizer プラグインは、入力されるオーディオデータから単語を認識するように設計されています。エンジンで動作させるために、whisper.cppの若干修正されたバージョンを使用しています。プラグインを使用するには、以下の手順に従ってください:

📄️ 言語モデルの使用方法

モデルの選択、ダウンロード、パッケージング

📄️ 認識パラメータ一覧

これらのパラメータは、認識器が実行されていない時のみ設定できます。

📄️ サポートされている言語

これは利用可能な言語モデルによってサポートされている言語の完全なリストです。

📄️ コマンド認識

レーベンシュタイン類似度の計算

📄️ フリーズの最小化

このガイドでは、RuntimeSpeechRecognizerプラグインにおけるフリーズの一般的な原因を2つ取り上げ、そのパフォーマンスへの影響を軽減するための実用的な解決策を提供します。

📄️ トラブルシューティング

ほとんどの問題は言語モデルのステージングに関連しており、パッケージ化されたビルドで問題を引き起こす可能性があります。具体的には、次のようなログに遭遇するかもしれません：

📄️ デモプロジェクト

Windows用パッケージデモプロジェクト.

📄️ パフォーマンスを向上させる方法

このプラグインは、プラットフォームに応じて異なるGPUアクセラレーション方法を使用します。WindowsではVulkan、MacおよびiOSプラットフォームではMetalを使用し、認識プロセスを大幅に高速化します。その他のプラットフォームでは、CPU + 組み込み関数を使用して高速化します。ただし、以下の推奨事項に従うことで、プラグインのパフォーマンスをさらに向上させることができます: