メインコンテンツまでスキップ

概要

Runtime Text To Speech Documentation

Runtime Text To Speechは、リアルタイムでオフライン、クロスプラットフォームのテキスト読み上げ合成を可能にするプラグインです。40の言語900以上の声、および160以上の音声品質をサポートし、スタジオ品質の出力を誇る先進的なオープンソース音声モデルファミリーであるKokoro 🚀を新たに搭載しました。このプラグインは高速で軽量、ゲームやアプリ、ナチュラルな音声を必要とするプロジェクトに最適です。

現在、このプラグインがサポートするプラットフォームは、WindowsLinuxMacAndroidMeta Questを含む)、およびiOSです。

📹 操作を見てみよう
YouTube デモを見るか、Piper Samplesで一般的な音声サンプルをテストしてください。

Kokoro

このプラグインは現在、Hugging Faceで最近公開された高品質のオープンソースTTSアーキテクチャであるKokoro voice modelsを実装しています。

  • 45の高品質モデルが6言語で利用可能:
    🇺🇸 英語 (US) • 🇬🇧 英語 (UK) • 🇪🇸 スペイン語 • 🇧🇷 ポルトガル語 • 🇮🇳 ヒンディー語 • 🇫🇷 フランス語
  • ライブプレビューあり: Test Kokoro Voices
なぜKokoroなのか?

Kokoro voice modelsは、現在利用可能な最高品質のオープンソースTTSソリューションの一つです。

インストール

始めるには、初回実行時にプラグインの設定から音声モデルをインストールします。インストールが完了したら、プロジェクト内でプラグインの使用を始めることができます。詳細な手順は、How to use the pluginページを参照してください。

プラグインの詳細

このプラグインは、PiperKokoro、およびONNX Runtimeライブラリを使用してリアルタイムのテキスト読み上げ合成を提供します。エディターを介して複数の音声モデルをダウンロードおよび管理し、プロジェクトに組み込むことができます。

コア機能は、テキスト入力処理と合成のための音声モデルの選択で構成されています。特定の音声モデルは複数のスピーカーをサポートしています - 例えば、English LibriTTSは900を超える異なるスピーカーを含んでおり、German Thorsten Emotionalには7つのスピーカーがあります。出力は対応するサンプルレートとチャンネル数のPCMオーディオデータ(フロート形式)です。この生音声データを再生可能な音波に変換するには、Runtime Audio Importerプラグインが必要です。

追加リソース