概述
Runtime Text To Speech 是一 个插件,支持实时、离线、跨平台的文字转语音合成。它支持40种语言,超过900种声音以及160+种语音特征,现在引入了Kokoro 🚀,一个具有录音室质量输出的尖端开源语音模型系列。该插件快速、轻量,非常适合需要自然语音的游戏、应用和项目。
目前,插件支持以下平台:Windows、Linux、Mac、Android(包括Meta Quest)和iOS。
📹 观看演示
观看 YouTube 演示 或测试通用语音样本 Piper Samples。
Kokoro
插件现在实现了 Kokoro 语音模型 - 最近在 Hugging Face 上发布的高质量开源 TTS 框架。
- 45个高质量模型,涵盖6种语言:
🇺🇸 英语(美国) • 🇬🇧 英语(英国) • 🇪🇸 西班牙语 • 🇧🇷 葡萄牙语 • 🇮🇳 印地语 • 🇫🇷 法语 - 可实时预览:测试 Kokoro 语音
为什么选择 Kokoro?
Kokoro 语音模型目前是 最高质量的开源 TTS 解决方案之一。
安装
要开始,首次运行时通过插件设置安装语音模型。安装后,即可在项目中使用该插件。有关详细说明,请参阅 如何使用插件 页面。
插件详情
此插件使用 Piper、Kokoro 以及 ONNX Runtime 库提供实时文字转语音合成。插件允许您通过编辑器下载和管理多个语音模型,然后可以与您的项目一起打包。
核心功能包括文本输入处理和语音模型选择进行合成。一些语音模型支持多位发言者 - 例如,英语 LibriTTS 包含超过900位不同发言者,德语 Thorsten Emotional 有7位发言者等。输出为PCM音频数据(浮点格式)以及相应的采样率和通道数。将此原始音频数据转换为可播放的声波需要 Runtime Audio Importer 插件。
其他资源
- 在 Fab 上获取
- Discord 支持服务器
- 视频教程
- 定制开发:[email protected](为团队和组织提供定制化解决方案)