概述

Runtime Text To Speech 是一個外掛程式，可實現即時、離線且跨平台的文字轉語音合成。它支援 51 種語言、超過 2800 種語音 和 75 種語音品質，現在更採用了 Kokoro，一個具有工作室品質輸出的開源語音模型系列。此插件快速、輕量，非常適合需要自然語音的遊戲、應用程式和專案。

目前，該插件支援以下平台：Windows、Linux、Mac、Android（包括 Meta Quest）和 iOS。

📹 實際運作展示
觀看 YouTube 示範（舊版影片）或在 Piper 範例測試通用語音樣本。

Kokoro

該插件也支援 Kokoro 語音模型（包括 Kokoro v1.1）——這些是近期在 Hugging Face 上發布的高品質開源 TTS 架構。

151 個高品質模型，涵蓋 8 種語言：
🇺🇸 美式英語 • 🇬🇧 英式英語 • 🇨🇳 簡體中文 • 🇪🇸 西班牙語 • 🇧🇷 葡萄牙語 • 🇮🇳 印地語 • 🇫🇷 法語 • 🇮🇹 義大利語
提供即時預覽：測試 Kokoro 語音

為什麼選擇 Kokoro？

Kokoro 語音模型是目前 最高品質的開源 TTS 解決方案之一。

主要功能

完全離線合成：無需網路連線
多種合成模式：
- 一般合成：為整個文字生成完整的音訊
- 串流合成：在生成過程中即時處理音訊區塊
取消支援：可隨時中斷正在進行的合成操作
跨平台相容性：適用於所有主要平台
Blueprint 和 C++ 支援：在兩種環境中均可完整存取 API

安裝

開始使用時，請在首次執行時透過插件設定安裝語音模型。安裝完成後，您就可以在專案中使用該插件。如需詳細說明，請參閱如何使用插件頁面。

插件詳細資訊

此插件使用 Piper、Kokoro 和 ONNX Runtime 函式庫實現即時文字轉語音合成。該插件允許您透過編輯器下載和管理多個語音模型，然後可將其與您的專案一起打包。

核心功能包括文字輸入處理和用於合成的語音模型選擇。某些語音模型支援多位說話者——例如，English LibriTTS 包含超過 900 位不同的說話者，German Thorsten Emotional 有 7 位說話者，等等。

輸出是 PCM 音訊資料（浮點格式），並帶有相應的取樣率和聲道數。此資料可透過兩種方式處理：

一般合成：在合成完成時接收完整的音訊資料
串流合成：在生成音訊資料區塊時即時接收，從而實現即時處理

將此原始音訊資料轉換為可播放的音波通常需要 Runtime Audio Importer 插件，該插件提供一般和串流播放功能。

其他資源

在 Fab 上獲取
產品網站
下載示範 (Windows)
影片教學（舊版影片）
插件支援與客製化開發：[email protected]（為團隊與組織提供的量身解決方案）

Join our Discord

online · support

Kokoro​

主要功能​

安裝​

插件詳細資訊​

其他資源​

Kokoro

主要功能

安裝

插件詳細資訊

其他資源