メインコンテンツまでスキップ

概要

Runtime Text To Speech ドキュメント

Runtime Text To Speech は、リアルタイム、オフライン、クロスプラットフォームのテキスト読み上げ合成を可能にするプラグインです。40言語900以上の音声160以上の音質をサポートしており、スタジオ品質の出力を誇る最先端のオープンソース音声モデルファミリー Kokoro 🚀 も新たに追加されました。このプラグインは高速で軽量、ゲームやアプリ、自然な音声を必要とするプロジェクトに最適です。

現在、以下のプラットフォームをサポートしています: WindowsLinuxMacAndroidMeta Quest 含む)、iOS

📹 動作デモ
YouTube デモを視聴するか、一般的な音声サンプルをPiper Samplesでテストできます。

Kokoro

本プラグインは Kokoro 音声モデル を実装しています - これは Hugging Face で最近公開された高品質なオープンソース TTS アーキテクチャです。

  • 8言語に対応した49の高品質モデル:
    🇺🇸 英語 (US) • 🇬🇧 英語 (UK) • 🇨🇳 簡体字中国語 • 🇪🇸 スペイン語 • 🇧🇷 ポルトガル語 • 🇮🇳 ヒンディー語 • 🇫🇷 フランス語 • 🇮🇹 イタリア語
  • ライブプレビュー利用可能: Kokoro Voices をテスト
Kokoro の利点

Kokoro 音声モデルは現在、最高品質のオープンソース TTS ソリューションの一つです。

主な機能

  • 完全オフライン合成: インターネット接続不要
  • 複数の合成モード:
    • 通常合成: テキスト全体のオーディオを生成
    • ストリーミング合成: 生成されたオーディオチャンクをリアルタイムで処理
  • キャンセル対応: 合成処理をいつでも中断可能
  • クロスプラットフォーム互換性: 主要プラットフォーム全てで動作
  • Blueprint と C++ サポート: 両環境で完全な API アクセスを提供

インストール

開始するには、初回起動時にプラグイン設定から音声モデルをインストールします。インストール後、プロジェクトでプラグインの使用を開始できます。詳細な手順は、プラグインの使用方法ページを参照してください。

プラグイン詳細

このプラグインは、PiperKokoroONNX Runtime ライブラリを使用したリアルタイムテキスト読み上げ合成を提供します。エディター経由で複数の音声モデルをダウンロード・管理でき、プロジェクトにバンドルできます。

コア機能は、テキスト入力処理と合成用音声モデル選択で構成されます。一部の音声モデルは複数の話者をサポートしています - 例えば、English LibriTTS は900以上の異なる話者、German Thorsten Emotional は7話者などを含みます。

出力はPCMオーディオデータ(float形式)で、対応するサンプルレートとチャンネル数が付属します。このデータは2つの方法で処理可能です:

  • 通常合成: 合成完了時に完全なオーディオデータを受け取る
  • ストリーミング合成: 生成されたオーディオチャンクをリアルタイムで受け取り、処理可能

この生オーディオデータを再生可能な音声波形に変換するには、通常およびストリーミング再生機能を提供する Runtime Audio Importer プラグインが必要な場合があります。

追加リソース