跳到主要内容

概览

Runtime Text To Speech Documentation

Runtime Text To Speech 是一款支持实时、离线、跨平台文本转语音合成的插件。它支持 39 种语言、超过 900 种声音160+ 种音质——现已推出 Kokoro 🚀,这是一个以高品质输出为特色的开源语音模型家族。该插件运行快速、占用资源少,是需要自然语音合成的游戏、应用程序和项目的理想选择。

目前该插件支持以下平台:WindowsLinuxMacAndroid(包括 Meta Quest)以及 iOS

📹 观看演示
查看 YouTube 视频演示,或在 Piper Samples 试用通用语音样例。

Kokoro

插件现已集成 Kokoro 语音模型——这是一套最近在 Hugging Face 发布的高品质开源 TTS 架构。

  • 45 个高质量模型,支持以下 6 种语言:
    🇺🇸 英语 (美式) • 🇬🇧 英语 (英式) • 🇪🇸 西班牙语 • 🇧🇷 葡萄牙语 • 🇮🇳 印地语 • 🇫🇷 法语
  • 支持实时预览测试 Kokoro 声音
为什么选择 Kokoro?

Kokoro 语音模型是目前最高品质的开源 TTS 解决方案之一。

安装

首次运行时,可通过插件设置安装语音模型。安装完成后,即可在您的项目中开始使用该插件。有关详细说明,请参阅 如何使用插件 页面。

插件详情

此插件利用 PiperKokoroONNX Runtime 库,实现实时文本转语音合成功能。插件允许您通过编辑器下载和管理多个语音模型,并将其打包到您的项目中。

核心功能包括处理文本输入和语音模型选择以进行合成。一些语音模型支持多位发音人——例如,English LibriTTS 包含超过 900 位不同发音人,German Thorsten Emotional 有 7 位发音人等。输出为 PCM 音频数据(浮点格式),包括相应的采样率和声道数。将此原始音频数据转换为可播放的声音波形需要 Runtime Audio Importer 插件的支持。