概述

Runtime Text To Speech 是一个支持实时、离线、跨平台的文本转语音合成插件。它支持 44 种语言,超过 900 种语音,以及 200 多种语音品质 – 现在更包含 Kokoro 🚀,这是一个具有录音室品质输出的尖端开源语音模型系列。该插件快速、轻量,非常适合需要自然语音的游戏、应用程序和项目。
目前,该插件支持以下平台:Windows、Linux、Mac、Android(包括 Meta Quest)和 iOS。
📹 观看演示
观看 YouTube 演示 或在 Piper 示例 测试通用语音样本。
Kokoro
该插件还支持 Kokoro 语音模型 - 最近在 Hugging Face 上发布的高质量开源 TTS 架构。
- 49 个高质量模型,涵盖 8 种语言:
🇺🇸 英语 (美国) • 🇬🇧 英语 (英国) • 🇨🇳 简体中文 • 🇪🇸 西班牙语 • 🇧🇷 葡萄牙语 • 🇮🇳 印地语 • 🇫🇷 法语 • 🇮🇹 意大利语 - 提供实时预览:测试 Kokoro 语音
为什么选择 Kokoro?
Kokoro 语音模型是目前可用的最高质量的开源 TTS 解决方案之一。
主要特性
- 完全离线合成:无需互联网连接
- 多种合成模式:
- 常规合成:为整个文本生成完整的音频
- 流式合成:实时处理生成的音频块
- 支持取消:随时中断正在进行的合成操作
- 跨平台兼容性:在所有主要平台上运行
- 支持 Blueprint 和 C++:在两种环境中均可完全访问 API
安装
要开始使用,请在首次运行时通过插件设置安装语音模型。安装完成后,即可在项目中使用该插件。详细说明请参阅 如何使用插件 页面。
插件详情
该插件使用 Piper、Kokoro 和 ONNX Runtime 库提供实时文本转语音合成。该插件允许您通过编辑器下载和管理多个语音模型,这些模型随后可以打包到您的项目中。
核心功能包括文本输入处理和用于合成的语音模型选择。一些语音模型支持多个说话者 - 例如,English LibriTTS 包含超过 900 个不同的说话者,German Thorsten Emotional 有 7 个说话者,等等。 输出的是PCM音频数据(采用浮点格式),包含相应的采样率和声道数。这些数据可以通过两种方式处理:
- 常规合成:合成完成后接收完整的音频数据
- 流式合成:在音频数据生成时以数据块形式接收,支持实时处理
将这种原始音频数据转换为可播放的声波通常需要使用 Runtime Audio Importer 插件,该插件同时提供常规和流式播放功能。
其他资源
- 在Fab上获取
- 产品网站
- 下载演示(Windows)
- Discord支持服务器
- 视频教程
- 插件支持与定制开发:[email protected](为团队和组织提供定制解决方案)