概述

Runtime Text To Speech 是一个支持实时、离线和跨平台文本转语音合成的插件。它支持 51 种语言、超过 2800 种语音 和 75 种音质，现在还加入了 Kokoro，一个具有工作室品质输出的开源语音模型系列。该插件速度快、轻量级，非常适合需要自然语音的游戏、应用程序和项目。

目前，该插件支持以下平台：Windows、Linux、Mac、Android（包括 Meta Quest）和 iOS。

📹 观看实际操作
观看 YouTube 演示 (旧版视频) 或在 Piper Samples 测试通用语音样本。

Kokoro

该插件还支持 Kokoro 语音模型（包括 Kokoro v1.1）——最近在 Hugging Face 上发布的高质量开源 TTS 架构。

8 种语言的 151 个高质量模型：
🇺🇸 英语（美国） • 🇬🇧 英语（英国） • 🇨🇳 简体中文 • 🇪🇸 西班牙语 • 🇧🇷 葡萄牙语 • 🇮🇳 印地语 • 🇫🇷 法语 • 🇮🇹 意大利语
提供实时预览：测试 Kokoro 语音

为什么选择 Kokoro？

Kokoro 语音模型目前是当今可用的最高质量的开放源代码 TTS 解决方案之一。

主要功能

完全离线合成：无需互联网连接
多种合成模式：
- 常规合成：为整个文本生成完整的音频
- 流式合成：在生成音频块时实时处理
取消支持：随时中断正在进行的合成操作
跨平台兼容性：在所有主要平台上运行
蓝图和 C++ 支持：两种环境中均可完全访问 API

安装

要开始使用，请在首次运行时通过插件设置安装语音模型。安装完成后，您可以在项目中开始使用该插件。详细说明请参阅如何使用该插件页面。

插件详情

该插件使用 Piper、Kokoro 和 ONNX Runtime 库提供实时文本转语音合成。该插件允许您通过编辑器下载和管理多个语音模型，然后可以将这些模型打包到您的项目中。

核心功能包括文本输入处理和用于合成的语音模型选择。某些语音模型支持多个说话人 - 例如，English LibriTTS 包含超过 900 个不同的说话人，German Thorsten Emotional 有 7 个说话人等。

输出是 PCM 音频数据（浮点格式），带有相应的采样率和声道数。可以通过两种方式处理该数据：

常规合成：合成完成后接收完整的音频数据
流式合成：在生成音频块时实时接收数据，从而实现实时处理

将此原始音频数据转换为可播放的声波通常需要 Runtime Audio Importer 插件，该插件提供常规和流式播放功能。

其他资源

在 Fab 上获取
产品网站
下载演示 (Windows)
视频教程 (旧版视频)
插件支持和定制开发：[email protected]（为团队和组织提供量身定制的解决方案）

Join our Discord

online · support

Kokoro​

主要功能​

安装​

插件详情​

其他资源​

Kokoro

主要功能

安装

插件详情

其他资源