概述

Runtime Text To Speech 是一個外掛程式,可實現即時、離線且跨平台的文字轉語音合成。它支援 51 種語言、超過 2800 種語音 和 75 種語音品質,現在更採用了 Kokoro,一個具有工作室品質輸出的開源語音模型系列。此插件快速、輕量,非常適合需要自然語音的遊戲、應用程式和專案。
目前,該插件支援以下平台:Windows、Linux、Mac、Android(包括 Meta Quest)和 iOS。
📹 實際運作展示
觀看 YouTube 示範(舊版影片)或在 Piper 範例 測試通用語音樣本。
Kokoro
該插件也支援 Kokoro 語音模型(包括 Kokoro v1.1)——這些是近期在 Hugging Face 上發布的高品質開源 TTS 架構。
- 151 個高品質模型,涵蓋 8 種語言:
🇺🇸 美式英語 • 🇬🇧 英式英語 • 🇨🇳 簡體中文 • 🇪🇸 西班牙語 • 🇧🇷 葡萄牙語 • 🇮🇳 印地語 • 🇫🇷 法語 • 🇮🇹 義大利語 - 提供即時預覽:測試 Kokoro 語音
為什麼選擇 Kokoro?
Kokoro 語音模型是目前 最高品質的開源 TTS 解決方案之一。
主要功能
- 完全離線合成:無需網路連線
- 多種合成模式:
- 一般合成:為整個文字生成完整的音訊
- 串流合成:在生成過程中即時處理音訊區塊
- 取消支援:可隨時中斷正在進行的合成操作
- 跨平台相容性:適用於所有主要平台
- Blueprint 和 C++ 支援:在兩種環境中均可完整存取 API
安裝
開始使用時,請在首次執行時透過插件設定安裝語音模型。安裝完成後,您就可以在專案中使用該插件。如需詳細說明,請參閱如何使用插件頁面。
插件詳細資訊
此插件使用 Piper、Kokoro 和 ONNX Runtime 函式庫實現即時文字轉語音合成。該插件允許您透過編輯器下載和管理多個語音模型,然後可將其與您的專案一起打包。
核心功能包括文字輸入處理和用於合成的語音模型選擇。某些語音模型支援多位說話者——例如,English LibriTTS 包含超過 900 位不同的說話者,German Thorsten Emotional 有 7 位說話者,等等。
輸出是 PCM 音訊資料(浮點格式),並帶有相應的取樣率和聲道數。此資料可透過兩種方式處理:
- 一般合成:在合成完成時接收完整的音訊資料
- 串流合成:在生成音訊資料區塊時即時接收,從而實現即時處理
將此原始音訊資料轉換為可播放的音波通常需要 Runtime Audio Importer 插件,該插件提供一般和串流播放功能。
其他資源
- 在 Fab 上獲取
- 產品網站
- 下載示範 (Windows)
- 影片教學(舊版影片)
- 插件支援與客製化開發:[email protected](為團隊與組織提供的量身解決方案)
Join our Discord
online · support