Перейти к основному содержимому

Обзор

Runtime Text To Speech Documentation

Runtime Text To Speech — это плагин, обеспечивающий синтез речи в реальном времени, в офлайн-режиме и на разных платформах. Он поддерживает 51 язык, более 2800 голосов и 75 качеств голоса, а теперь включает Kokoro — семейство голосовых моделей с открытым исходным кодом и качеством студийного уровня. Плагин быстрый, легковесный и идеально подходит для игр, приложений и проектов, где требуется естественно звучащая речь.

В настоящее время плагин поддерживает следующие платформы: Windows, Linux, Mac, Android (включая Meta Quest) и iOS.

📹 Посмотрите в действии
Посмотрите демонстрацию на YouTube (старое видео) или протестируйте образцы голосов на Piper Samples.

Kokoro

Плагин также поддерживает голосовые модели Kokoro (включая Kokoro v1.1) — высококачественные архитектуры TTS с открытым исходным кодом, недавно опубликованные на Hugging Face.

  • 151 высококачественных моделей на 8 языках:
    🇺🇸 Английский (США) • 🇬🇧 Английский (Великобритания) • 🇨🇳 Упрощённый китайский • 🇪🇸 Испанский • 🇧🇷 Португальский • 🇮🇳 Хинди • 🇫🇷 Французский • 🇮🇹 Итальянский
  • Доступен живой предпросмотр: Протестируйте голоса Kokoro
Why Kokoro?

Голосовые модели Kokoro в настоящее время являются одними из самых качественных открытых решений TTS, доступных на сегодняшний день.

Ключевые возможности

  • Полный офлайн-синтез: не требуется подключение к интернету
  • Несколько режимов синтеза:
    • Обычный синтез: генерация полного аудио для всего текста
    • Потоковый синтез: обработка аудиофрагментов в реальном времени по мере их создания
  • Поддержка отмены: возможность прервать текущие операции синтеза в любой момент
  • Кроссплатформенная совместимость: работает на всех основных платформах
  • Поддержка Blueprint и C++: полный доступ к API в обеих средах

Установка

Чтобы начать работу, установите голосовые модели через настройки плагина при первом запуске. После установки можно приступать к использованию плагина в вашем проекте. Подробные инструкции см. на странице Как использовать плагин.

Подробности о плагине

Плагин обеспечивает синтез речи в реальном времени с использованием библиотек Piper, Kokoro и ONNX Runtime. Плагин позволяет загружать и управлять несколькими голосовыми моделями через редактор, которые затем можно упаковать вместе с проектом.

Основная функциональность заключается в обработке ввода текста и выборе голосовой модели для синтеза. Некоторые голосовые модели поддерживают несколько дикторов — например, английская LibriTTS включает более 900 различных дикторов, немецкая Thorsten Emotional имеет 7 дикторов и т.д.

На выходе получаются аудиоданные PCM (в формате float) с соответствующей частотой дискретизации и количеством каналов. Эти данные можно обрабатывать двумя способами:

  • Обычный синтез: получение полных аудиоданных по завершении синтеза
  • Потоковый синтез: получение аудиоданных фрагментами по мере их генерации, что позволяет выполнять обработку в реальном времени

Преобразование этих необработанных аудиоданных в воспроизводимую звуковую волну обычно требует плагина Runtime Audio Importer, который предоставляет как обычное, так и потоковое воспроизведение.

Дополнительные ресурсы

Join our Discord
online · support