跳至主要内容

概述

Runtime Text To Speech 文件

Runtime Text To Speech 是一個外掛程式,可實現即時、離線且跨平台的文字轉語音合成。它支援 51 種語言、超過 2800 種語音75 種語音品質,現在更採用了 Kokoro,一個具有工作室品質輸出的開源語音模型系列。此插件快速、輕量,非常適合需要自然語音的遊戲、應用程式和專案。

目前,該插件支援以下平台:WindowsLinuxMacAndroid(包括 Meta Quest)和 iOS

📹 實際運作展示
觀看 YouTube 示範舊版影片)或在 Piper 範例 測試通用語音樣本。

Kokoro

該插件也支援 Kokoro 語音模型(包括 Kokoro v1.1)——這些是近期在 Hugging Face 上發布的高品質開源 TTS 架構。

  • 151 個高品質模型,涵蓋 8 種語言:
    🇺🇸 美式英語 • 🇬🇧 英式英語 • 🇨🇳 簡體中文 • 🇪🇸 西班牙語 • 🇧🇷 葡萄牙語 • 🇮🇳 印地語 • 🇫🇷 法語 • 🇮🇹 義大利語
  • 提供即時預覽測試 Kokoro 語音
為什麼選擇 Kokoro?

Kokoro 語音模型是目前 最高品質的開源 TTS 解決方案之一。

主要功能

  • 完全離線合成:無需網路連線
  • 多種合成模式
    • 一般合成:為整個文字生成完整的音訊
    • 串流合成:在生成過程中即時處理音訊區塊
  • 取消支援:可隨時中斷正在進行的合成操作
  • 跨平台相容性:適用於所有主要平台
  • Blueprint 和 C++ 支援:在兩種環境中均可完整存取 API

安裝

開始使用時,請在首次執行時透過插件設定安裝語音模型。安裝完成後,您就可以在專案中使用該插件。如需詳細說明,請參閱如何使用插件頁面。

插件詳細資訊

此插件使用 PiperKokoroONNX Runtime 函式庫實現即時文字轉語音合成。該插件允許您透過編輯器下載和管理多個語音模型,然後可將其與您的專案一起打包。

核心功能包括文字輸入處理和用於合成的語音模型選擇。某些語音模型支援多位說話者——例如,English LibriTTS 包含超過 900 位不同的說話者,German Thorsten Emotional 有 7 位說話者,等等。

輸出是 PCM 音訊資料(浮點格式),並帶有相應的取樣率和聲道數。此資料可透過兩種方式處理:

  • 一般合成:在合成完成時接收完整的音訊資料
  • 串流合成:在生成音訊資料區塊時即時接收,從而實現即時處理

將此原始音訊資料轉換為可播放的音波通常需要 Runtime Audio Importer 插件,該插件提供一般和串流播放功能。

其他資源

Join our Discord
online · support