メインコンテンツまでスキップ

概要

Runtime Text To Speech ドキュメント

Runtime Text To Speech は、リアルタイム、オフライン、クロスプラットフォームのテキスト読み上げ合成を可能にするプラグインです。47言語900以上の音声170の音声品質をサポートし、スタジオ品質の出力を実現するオープンソース音声モデルファミリー Kokoro も新たに搭載しています。このプラグインは高速で軽量、自然な音声を必要とするゲーム、アプリ、プロジェクトに最適です。

現在、プラグインは以下のプラットフォームをサポートしています: WindowsLinuxMacAndroid (Meta Quest を含む)、iOS

📹 動作デモを見る
YouTube デモ を視聴するか、一般的な音声サンプルを Piper サンプル で試聴してください。

Kokoro

このプラグインは、Hugging Face で最近公開された高品質なオープンソース TTS アーキテクチャである Kokoro 音声モデル (Kokoro v1.1 を含む) もサポートしています。

  • 8言語 にわたる 151の高品質モデル:
    🇺🇸 英語 (米国) • 🇬🇧 英語 (英国) • 🇨🇳 簡体字中国語 • 🇪🇸 スペイン語 • 🇧🇷 ポルトガル語 • 🇮🇳 ヒンディー語 • 🇫🇷 フランス語 • 🇮🇹 イタリア語
  • ライブプレビュー利用可能: Kokoro 音声を試す
Kokoro を選ぶ理由

Kokoro 音声モデルは、現在入手可能な 最高品質のオープンソース TTS ソリューションの一つです。

主な機能

  • 完全オフライン合成: インターネット接続不要
  • 複数の合成モード:
    • 通常合成: テキスト全体の完全なオーディオを生成
    • ストリーミング合成: 生成されるオーディオチャンクをリアルタイムで処理
  • キャンセルサポート: 進行中の合成操作をいつでも中断可能
  • クロスプラットフォーム互換性: 主要な全プラットフォームで動作
  • Blueprint と C++ サポート: 両環境での完全な API アクセス

インストール

開始するには、初回起動時にプラグイン設定から音声モデルをインストールします。インストール後、プロジェクトでプラグインの使用を開始できます。詳細な手順については、プラグインの使用方法 ページを参照してください。

プラグイン詳細

このプラグインは、PiperKokoroONNX Runtime ライブラリを使用してリアルタイムテキスト読み上げ合成を提供します。エディター経由で複数の音声モデルをダウンロードおよび管理でき、プロジェクトにパッケージ化することができます。

中核となる機能は、合成のためのテキスト入力処理と音声モデル選択で構成されています。一部の音声モデルは複数の話者をサポートしています。例えば、English LibriTTS は 900以上の異なる話者 を含み、German Thorsten Emotional は 7人の話者などです。

出力は、対応するサンプルレートとチャンネル数を持つ PCM オーディオデータ (float 形式) です。このデータは2つの方法で処理できます:

  • 通常合成: 合成が完了したときに完全なオーディオデータを受け取る
  • ストリーミング合成: 生成されるオーディオデータをチャンクでリアルタイムに受け取り、リアルタイム処理を可能にする

この生のオーディオデータを再生可能な音声波形に変換するには、通常およびストリーミング再生機能の両方を提供する Runtime Audio Importer プラグインが必要になることが一般的です。

追加リソース