概要
Runtime Text To Speech は、リアルタイムでオフラインかつクロスプラットフォームなテキスト読み上げを実現するプラグインです。40言語、900以上の音声、160以上の音質をサポートしており、スタジオ品質の出力を誇る最先端のオープンソース音声モデルファミリー Kokoro 🚀 も新たに追加されました。高速で軽量なため、自然な音声を必要とするゲーム、アプリ、プロジェクトに最適です。
現在、以下のプラットフォームをサポートしています: Windows、Linux、Mac、Android(Meta Quest 含む)、iOS。
📹 動作デモ
YouTube デモを視聴するか、一般的な音声サンプルをPiper Samplesで試聴できます。
Kokoro
本プラグインは Kokoro 音声モデル を実装しています - これは Hugging Face で最近公開された高品質なオープンソース TTS アーキテクチャです。
- 7言語で53の高品質モデル を提供:
🇺🇸 英語 (US) • 🇬🇧 英語 (UK) • 🇨🇳 簡体字中国語 • 🇪🇸 スペイン語 • 🇧🇷 ポルトガル語 • 🇮🇳 ヒンディー語 • 🇫🇷 フランス語 - ライブプレビュー可能: Kokoro 音声を試す
Kokoro 音声モデルは現在、最高品質のオープンソース TTS ソリューションの一つです。
インストール
開始するには、初回起動時にプラグイン設定から音声モデルをインストールします。インストール後、プロジェクトでプラグインを使用できます。詳細な手順については、プラグインの使用方法ページを参照してください。
プラグイン詳細
このプラグインは、Piper、Kokoro、ONNX Runtime ライブラリを使用してリアルタイムテキスト読み上げを提供します。エディター経由で複数の音声モデルをダウンロード・管理でき、プロジェクトにバンドルできます。
コア機能は、テキスト入力処理と合成用音声モデル選択で構成されます。一部の音声モデルは複数の話者をサポートしています - 例えば、English LibriTTS は900以上の異なる話者、German Thorsten Emotional は7話者などを含みます。出力はPCMオーディオデータ(float形式)で、対応するサンプルレートとチャンネル数が含まれます。この生オーディオデータを再生可能な音声波形に変換するには、Runtime Audio Importer プラグインが必要です。
追加リソース
- Fab で入手
- 製品ウェブサイト
- デモ版ダウンロード (Windows)
- Discord サポートサーバー
- ビデオチュートリアル
- カスタム開発: [email protected] (チーム・組織向けのテーラーメイドソリューション)