メインコンテンツまでスキップ

概要

Runtime Text To Speech ドキュメンテーション

Runtime Text To Speech は、リアルタイム、オフライン、クロスプラットフォームのテキスト読み上げ合成を可能にするプラグインです。51言語2800以上の音声75の音声品質をサポートし、さらにスタジオ品質の出力を実現するオープンソース音声モデルファミリー Kokoro を新たに搭載しています。このプラグインは高速かつ軽量で、自然な音声を必要とするゲーム、アプリ、プロジェクトに最適です。

現在、プラグインは以下のプラットフォームに対応しています: WindowsLinuxMacAndroidMeta Quest を含む)、iOS

📹 動作を見る
YouTube デモ (以前の動画) を見るか、Piper サンプル で一般的な音声サンプルをテストしてください。

Kokoro

このプラグインは Kokoro 音声モデル(Kokoro v1.1 を含む)もサポートしています。これは最近 Hugging Face で公開された高品質オープンソース TTS アーキテクチャです。

  • 8言語にわたる 151 の高品質モデル:
    🇺🇸 英語 (米国) • 🇬🇧 英語 (英国) • 🇨🇳 簡体字中国語 • 🇪🇸 スペイン語 • 🇧🇷 ポルトガル語 • 🇮🇳 ヒンディー語 • 🇫🇷 フランス語 • 🇮🇹 イタリア語
  • ライブプレビューを試す: Kokoro の音声をテスト
Why Kokoro?

Kokoro 音声モデルは、現在利用可能な中で 最高品質のオープンソース TTS ソリューションの一つです。

主な機能

  • 完全なオフライン合成: インターネット接続不要
  • 複数の合成モード:
    • 通常合成: テキスト全体の音声を生成
    • ストリーミング合成: 生成と同時にリアルタイムで音声チャンクを処理
  • キャンセル機能: 進行中の合成操作をいつでも中断可能
  • クロスプラットフォーム対応: 主要な全プラットフォームで動作
  • Blueprint および C++ サポート: 両方の環境で完全な API アクセスを提供

インストール

導入を始めるには、初回起動時にプラグイン設定から音声モデルをインストールしてください。インストール後、プロジェクトでプラグインを使い始めることができます。詳細な手順については、How to use the plugin ページを参照してください。

プラグイン詳細

このプラグインは、PiperKokoro、および ONNX Runtime ライブラリを使用してリアルタイムのテキスト読み上げ合成を提供します。エディターから複数の音声モデルをダウンロードして管理でき、それらをプロジェクトにパッケージングできます。

中核となる機能は、テキスト入力の処理と合成用の音声モデルの選択です。一部の音声モデルは複数の話者をサポートしています。たとえば、English LibriTTS には 900 人以上の異なる話者が含まれ、German Thorsten Emotional には 7 人の話者がいます。

出力は PCM 音声データ(float 形式)で、対応するサンプルレートとチャンネル数が含まれます。このデータは次の 2 つの方法で処理できます:

  • 通常合成: 合成が完了したときに完全な音声データを受け取ります
  • ストリーミング合成: 生成されたチャンクをリアルタイムで受け取り、逐次処理できます

この生の音声データを再生可能なサウンド波形に変換するには、通常 Runtime Audio Importer プラグインが必要です。このプラグインは通常再生とストリーミング再生の両方の機能を提供します。

その他のリソース

Join our Discord
online · support