概述
Runtime Text To Speech 是一款支持实时、离线和跨平台的文本转语音合成插件。它支持 40种语言、超过 900种音色 和 160+种音质 —— 现新增 Kokoro 🚀,这是一个具有录音棚级音质的尖端开源语音模型家族。该插件快速轻量,非常适合需要自然语音输出的游戏、应用程序和项目。
目前插件支持以下平台:Windows、Linux、Mac、Android(包括 Meta Quest)和 iOS。
📹 观看演示
查看 YouTube 演示视频 或在 Piper 语音样本 测试通用语音样本。
Kokoro
该插件现已集成 Kokoro 语音模型 —— 近期发布于 Hugging Face 的高质量开源 TTS 架构。
- 8种语言的49个高质量模型:
🇺🇸 英语(美式) • 🇬🇧 英语(英式) • 🇨🇳 简体中文 • 🇪🇸 西班牙语 • 🇧🇷 葡萄牙语 • 🇮🇳 印地语 • 🇫🇷 法语 • 🇮🇹 意大利语 - 实时试听:测试 Kokoro 音色
为什么选择 Kokoro?
Kokoro 语音模型是目前可用的最高质量开源 TTS 解决方案之一。
核心功能
- 完全离线合成:无需互联网连接
- 多种合成模式:
- 常规合成:为整段文本生成完整音频
- 流式合成:实时处理生成的音频片段
- 支持中断:可随时终止正在进行的合成操作
- 跨平台兼容:支持所有主流平台
- 蓝图与C++支持:提供完整的双环境API访问
安装指南
首次使用时,通过插件设置安装语音模型。安装完成后即可在项目中使用该插件。详细说明请参阅如何使用插件页面。
技术细节
本插件使用 Piper、Kokoro 和 ONNX Runtime 库实现实时文本转语音合成。支持通过编辑器下载和管理多个语音模型,这些模型可随项目打包发布。
核心功能包括文本输入处理和语音模型选择。部分模型支持多说话人——例如英语 LibriTTS 包含超过900种不同说话人,德语 Thorsten Emotional 有7种说话人等。
输出为PCM音频数据(浮点格式)及对应的采样率与声道数。可通过两种方式处理这些数据:
- 常规合成:合成完成后获取完整音频数据
- 流式合成:实时获取生成的音频片段
通常需要使用 Runtime Audio Importer 插件将这些原始音频数据转换为可播放的声波,该插件同时支持常规和流式播放。
相关资源
- Fab平台购买
- 产品官网
- 下载Windows演示版
- Discord技术支持
- 视频教程
- 定制开发:[email protected](为团队和组织提供定制解决方案)