メインコンテンツまでスキップ

概要

Runtime Text To Speech ドキュメント

Runtime Text To Speech は、リアルタイム、オフライン、クロスプラットフォームのテキスト読み上げ合成を可能にするプラグインです。44言語900以上の音声200以上の音声品質をサポートしており、スタジオ品質の出力を実現する最先端のオープンソース音声モデルファミリーである Kokoro 🚀 も新たに搭載しています。このプラグインは高速で軽量であり、自然な音声を必要とするゲーム、アプリケーション、プロジェクトに最適です。

現在、プラグインは以下のプラットフォームをサポートしています: Windows, Linux, Mac, Android (Meta Quest を含む), iOS.

📹 動作デモを見る
YouTube デモ を視聴するか、一般的な音声サンプルを Piper サンプル でテストしてください。

Kokoro

このプラグインは、Hugging Face で最近公開された高品質なオープンソース TTS アーキテクチャである Kokoro 音声モデル もサポートしています。

  • 8言語にわたる49の高品質モデル:
    🇺🇸 英語 (米国) • 🇬🇧 英語 (英国) • 🇨🇳 簡体字中国語 • 🇪🇸 スペイン語 • 🇧🇷 ポルトガル語 • 🇮🇳 ヒンディー語 • 🇫🇷 フランス語 • 🇮🇹 イタリア語
  • ライブプレビュー利用可能: Kokoro 音声をテスト
Kokoro を選ぶ理由

Kokoro 音声モデルは、現在利用可能な 最高品質のオープンソース TTS ソリューションの一つです。

主な機能

  • 完全オフライン合成: インターネット接続は不要です
  • 複数の合成モード:
    • 通常合成: テキスト全体の完全なオーディオを生成します
    • ストリーミング合成: 生成されたオーディオチャンクをリアルタイムで処理します
  • キャンセルサポート: 進行中の合成操作をいつでも中断できます
  • クロスプラットフォーム互換性: 主要なすべてのプラットフォームで動作します
  • Blueprint と C++ サポート: 両環境で完全な API アクセスが可能です

インストール

開始するには、初回実行時にプラグイン設定から音声モデルをインストールします。インストール後、プロジェクトでプラグインの使用を開始できます。詳細な手順については、プラグインの使用方法 ページを参照してください。

プラグイン詳細

このプラグインは、PiperKokoro、および ONNX Runtime ライブラリを使用して、リアルタイムのテキスト読み上げ合成を提供します。プラグインでは、エディターを介して複数の音声モデルをダウンロードおよび管理でき、それらをプロジェクトにパッケージ化することができます。

中核となる機能は、合成のためのテキスト入力処理と音声モデルの選択で構成されています。一部の音声モデルは複数の話者をサポートしています。例えば、English LibriTTS は900以上の異なる話者を含み、German Thorsten Emotional は7人の話者などを持っています。 出力はPCMオーディオデータ(float形式)で、対応するサンプルレートとチャンネル数を持ちます。このデータは2つの方法で処理できます:

  • 通常の合成: 合成が完了したときに完全なオーディオデータを受け取る
  • ストリーミング合成: 生成されるチャンクごとにオーディオデータを受け取り、リアルタイム処理を可能にする

この生のオーディオデータを再生可能な音声波形に変換するには、通常およびストリーミング再生機能の両方を提供するRuntime Audio Importerプラグインが必要です。

追加リソース