跳到主要内容

概述

Runtime Text To Speech 文档

Runtime Text To Speech 是一款支持实时、离线、跨平台的文本转语音合成插件。它支持 41种语言,超过 900种声音190+种音质 —— 现在新增了 Kokoro 🚀,这是一个具有录音室品质输出的尖端开源语音模型系列。该插件快速、轻量,非常适合需要自然语音输出的游戏、应用程序和项目。

目前插件支持以下平台:WindowsLinuxMacAndroid(包括 Meta Quest)和 iOS

📹 观看演示
观看 YouTube 演示视频 或在 Piper Samples 测试通用语音样本。

Kokoro

该插件现已集成 Kokoro 语音模型 —— 近期在 Hugging Face 发布的高质量开源 TTS 架构。

  • 49个高质量模型 覆盖8种语言:
    🇺🇸 英语(美式) • 🇬🇧 英语(英式) • 🇨🇳 简体中文 • 🇪🇸 西班牙语 • 🇧🇷 葡萄牙语 • 🇮🇳 印地语 • 🇫🇷 法语 • 🇮🇹 意大利语
  • 实时试听测试 Kokoro 语音
为什么选择 Kokoro?

Kokoro 语音模型是目前可用的最高质量开源 TTS 解决方案之一。

核心功能

  • 完全离线合成:无需互联网连接
  • 多种合成模式
    • 常规合成:为完整文本生成全部音频
    • 流式合成:实时处理生成的音频片段
  • 取消支持:随时中断正在进行的合成操作
  • 跨平台兼容:支持所有主流平台
  • 蓝图与 C++ 支持:在两种环境中均可完整调用 API

安装

首次使用时,通过插件设置安装语音模型。安装完成后即可在项目中使用该插件。详细说明请参阅如何使用插件页面。

插件详情

本插件使用 PiperKokoroONNX Runtime 库实现实时文本转语音合成。您可以通过编辑器下载和管理多个语音模型,这些模型可随项目打包发布。

核心功能包括文本输入处理和语音模型选择合成。部分语音模型支持多说话人 —— 例如英语 LibriTTS 包含超过 900 种不同说话人,德语 Thorsten Emotional 有7种说话人等。

输出为 PCM 音频数据(浮点格式)及对应的采样率和声道数。这些数据可通过两种方式处理:

  • 常规合成:合成完成后接收完整音频数据
  • 流式合成:实时接收生成的音频片段数据

将原始音频数据转换为可播放的声波通常需要 Runtime Audio Importer 插件,该插件提供常规和流式播放功能。

其他资源