概要

Runtime Text To Speech は、リアルタイム、オフライン、クロスプラットフォームのテキスト読み上げ合成を可能にするプラグインです。45言語、900以上の音声、140以上の音声品質をサポートしており、スタジオ品質の出力を実現する最先端のオープンソース音声モデルファミリーである Kokoro 🚀 を新たに搭載しています。このプラグインは高速で軽量であり、自然な音声を必要とするゲーム、アプリ、プロジェクトに最適です。
現在、プラグインは以下のプラットフォームをサポートしています: Windows、Linux、Mac、Android (Meta Quest を含む)、iOS。
📹 動作デモ
YouTube デモ をご覧いただくか、一般的な音声サンプルを Piper サンプル でお試しください。
Kokoro
このプラグインは、Hugging Face で最近公開された高品質なオープンソース TTS アーキテクチャである Kokoro 音声モデル (Kokoro v1.1 を含む) もサポートしています。
- 8言語 にわたる 152の高品質モデル:
🇺🇸 英語 (米国) • 🇬🇧 英語 (英国) • 🇨🇳 簡体字中国語 • 🇪🇸 スペイン語 • 🇧🇷 ポルトガル語 • 🇮🇳 ヒンディー語 • 🇫🇷 フランス語 • 🇮🇹 イタリア語 - ライブプレビュー利用可能: Kokoro 音声を試す
Kokoro 音声モデルは、現在利用可能な 最高品質のオープンソース TTS ソリューションの一つです。
主な機能
- 完全オフライン合成: インターネット接続は不要です
- 複数の合成モード:
- 通常合成: テキスト全体の完全なオーディオを生成します
- ストリーミング合成: 生成されたオーディオチャンクをリアルタイムで処理します
- キャンセルサポート: 進行中の合成操作をいつでも中断できます
- クロスプラットフォーム互換性: 主要なすべてのプラットフォームで動作します
- Blueprint と C++ サポート: 両環境で完全な API アクセスが可能です
インストール
開始するには、初回実行時にプラグイン設定から音声モデルをインストールします。インストール後、プロジェクトでプラグインの使用を開始できます。詳細な手順については、プラグインの使用方法 ページを参照してください。
プラグイン詳細
このプラグインは、Piper、Kokoro、および ONNX Runtime ライブラリを使用してリアルタイムのテキスト読み上げ合成を提供します。プラグインでは、エディターを介して複数の音声モデルをダウンロードおよび管理でき、それらをプロジェクトにパッケージ化することができます。
コア機能は、合成のためのテキスト入力処理と音声モデルの選択で構成されています。一部の音声モデルは複数の話者をサポートしています。例えば、English LibriTTS には 900 以上の異なる話者が含まれており、German Thorsten Emotional には 7 人の話者がいます。
出力は、対応するサンプルレートとチャンネル数を持つ PCM オーディオデータ (float 形式) です。このデータは 2 つの方法で処理できます:
- 通常合成: 合成が完了したときに完全なオーディオデータを受け取ります
- ストリーミング合成: 生成されたオーディオデータをチャンクで受け取り、リアルタイム処理を可能にします
この生のオーディオデータを再生可能な音声波形に変換するには、通常およびストリーミング再生機能の両方を提供する Runtime Audio Importer プラグインが必要になることが一般的です。
追加リソース
- Fab で入手
- 製品ウェブサイト
- デモをダウンロード (Windows)
- Discord サポートサーバー
- ビデオチュートリアル
- プラグインサポート & カスタム開発: [email protected] (チームおよび組織向けのカスタマイズソリューション)