メインコンテンツまでスキップ

概要

Runtime Text To Speech Documentation

Runtime Text To Speech は、リアルタイムかつオフラインで動作するクロスプラットフォームのテキスト読み上げ合成プラグインです。39言語900以上の声、そして160以上の声質をサポートし、スタジオ品質の出力を実現する最新のオープンソースボイスモデルファミリー Kokoro 🚀 を搭載しました。このプラグインは、高速で軽量、かつ自然な音声が必要なゲーム、アプリケーション、その他のプロジェクトに最適です。

現在、このプラグインは以下のプラットフォームをサポートしています:WindowsLinuxMacAndroidMeta Quest を含む)、および iOS

📹 実際の動作を見る
YouTube デモ を視聴するか、Piper Samples で一般的な音声サンプルをテストできます。

Kokoro

このプラグインには、新たに Kokoro voice models が実装されています。これらは、Hugging Face 上で最近公開された高品質なオープンソース TTS アーキテクチャです。

  • 6言語にわたる45種類の高品質モデル
    🇺🇸 英語 (US) • 🇬🇧 英語 (UK) • 🇪🇸 スペイン語 • 🇧🇷 ポルトガル語 • 🇮🇳 ヒンディー語 • 🇫🇷 フランス語
  • ライブプレビュー利用可能: Kokoro Voices をテスト
なぜ Kokoro?

Kokoro voice models は、現在利用可能な 最も高品質なオープンソース TTS ソリューションの一つです。

インストール

開始するには、初回実行時にプラグイン設定からボイスモデルをインストールしてください。インストール後、プロジェクト内でプラグインを使用できます。詳細な手順については、プラグインの使い方 ページを参照してください。

プラグイン詳細

このプラグインは、PiperKokoro、および ONNX Runtime ライブラリを使用してリアルタイムのテキスト読み上げ合成を提供します。このプラグインでは、複数のボイスモデルをエディタ内でダウンロードおよび管理可能で、それらをプロジェクトとともにパッケージングすることができます。

主な機能は、テキスト入力の処理および合成用のボイスモデル選択です。一部のボイスモデルは複数のスピーカーをサポートしており、例えば English LibriTTS では 900 以上の異なるスピーカー、German Thorsten Emotional には 7 つのスピーカーが含まれています。出力されるのは PCM 音声データ(float フォーマット)で、これには対応するサンプルレートとチャンネル数があります。この生の音声データを再生可能な音声波形に変換するには、Runtime Audio Importer プラグインが必要です。