メインコンテンツまでスキップ

概要

Runtime Text To Speech ドキュメント

Runtime Text To Speech は、リアルタイムでオフライン動作可能なクロスプラットフォームのテキスト読み上げ合成を実現するプラグインです。41言語900以上の音声190以上の音質をサポートしており、スタジオ品質の出力を誇る最先端のオープンソース音声モデルファミリー Kokoro 🚀 も新たに追加されました。このプラグインは高速で軽量、自然な音声を必要とするゲーム、アプリ、プロジェクトに最適です。

現在サポートされているプラットフォーム: WindowsLinuxMacAndroidMeta Quest 含む)、iOS

📹 動作デモ
YouTube デモを視聴するか、一般的な音声サンプルをPiper Samplesで試聴できます。

Kokoro

本プラグインは Kokoro 音声モデル を実装しています - Hugging Face で最近公開された高品質なオープンソースTTSアーキテクチャです。

  • 8言語49種類の高品質モデル:
    🇺🇸 英語 (US) • 🇬🇧 英語 (UK) • 🇨🇳 簡体字中国語 • 🇪🇸 スペイン語 • 🇧🇷 ポルトガル語 • 🇮🇳 ヒンディー語 • 🇫🇷 フランス語 • 🇮🇹 イタリア語
  • ライブプレビュー利用可能: Kokoro音声を試す
Kokoroの特長

Kokoro音声モデルは現在、最高品質のオープンソースTTSソリューションの一つです。

主な機能

  • 完全オフライン合成: インターネット接続不要
  • 複数の合成モード:
    • 通常合成: テキスト全体のオーディオを生成
    • ストリーミング合成: 生成されたオーディオチャンクをリアルタイムで処理
  • キャンセル対応: 合成処理をいつでも中断可能
  • クロスプラットフォーム互換性: 主要プラットフォーム全てで動作
  • BlueprintとC++サポート: 両環境で完全なAPIアクセス可能

インストール

開始するには、初回起動時にプラグイン設定から音声モデルをインストールします。インストール後、プロジェクトでプラグインの使用を開始できます。詳細な手順はプラグインの使用方法ページを参照してください。

プラグイン詳細

このプラグインはPiperKokoroONNX Runtimeライブラリを使用したリアルタイムテキスト読み上げ合成を提供します。エディター経由で複数の音声モデルをダウンロード・管理でき、プロジェクトにバンドル可能です。

コア機能はテキスト入力処理と合成用音声モデル選択で構成されます。一部の音声モデルは複数の話者をサポートしています - 例えばEnglish LibriTTSは900以上の異なる話者、German Thorsten Emotionalは7話者などが含まれます。

出力はPCMオーディオデータ(float形式)と対応するサンプルレート・チャンネル数で、以下の2つの方法で処理可能:

  • 通常合成: 合成完了時に完全なオーディオデータを受け取る
  • ストリーミング合成: 生成されたオーディオチャンクをリアルタイムで受け取り、リアルタイム処理を可能にする

この生オーディオデータを再生可能な音声波形に変換するには、通常/ストリーミング再生機能を提供するRuntime Audio Importerプラグインが必要な場合があります。

追加リソース