Перейти к основному содержимому

Обзор

Runtime Text To Speech Documentation

Runtime Text To Speech — это плагин, обеспечивающий синтез речи из текста в реальном времени, офлайн и кроссплатформенно. Он поддерживает 44 языка, более 900 голосов и 200+ качеств голоса — а теперь включает Kokoro 🚀, передовое семейство голосовых моделей с открытым исходным кодом, обеспечивающее студийное качество звука. Плагин быстрый, легковесный и идеально подходит для игр, приложений и проектов, требующих естественно звучащей речи.

В настоящее время плагин поддерживает следующие платформы: Windows, Linux, Mac, Android (включая Meta Quest) и iOS.

📹 Посмотрите в действии
Посмотрите демонстрацию на YouTube или протестируйте общие голосовые примеры на Piper Samples.

Kokoro

Плагин также поддерживает голосовые модели Kokoro — высококачественные архитектуры синтеза речи с открытым исходным кодом, недавно опубликованные на Hugging Face.

  • 49 высококачественных моделей для 8 языков:
    🇺🇸 Английский (США) • 🇬🇧 Английский (Великобритания) • 🇨🇳 Упрощенный китайский • 🇪🇸 Испанский • 🇧🇷 Португальский • 🇮🇳 Хинди • 🇫🇷 Французский • 🇮🇹 Итальянский
  • Доступен живой предпросмотр: Протестируйте голоса Kokoro
Почему Kokoro?

Голосовые модели Kokoro в настоящее время являются одними из самых высококачественных решений для синтеза речи с открытым исходным кодом.

Ключевые особенности

  • Полностью автономный синтез: Не требуется подключение к интернету
  • Несколько режимов синтеза:
    • Обычный синтез: Генерация полного аудио для всего текста
    • Потоковый синтез: Обработка аудиофрагментов в реальном времени по мере их генерации
  • Поддержка отмены: Возможность прервать операцию синтеза в любой момент
  • Кроссплатформенная совместимость: Работает на всех основных платформах
  • Поддержка Blueprint и C++: Полный доступ к API в обеих средах

Установка

Чтобы начать, установите голосовые модели через настройки плагина при первом запуске. После установки вы можете начать использовать плагин в своем проекте. Подробные инструкции смотрите на странице Как использовать плагин.

Детали плагина

Этот плагин обеспечивает синтез речи из текста в реальном времени с использованием библиотек Piper, Kokoro и ONNX Runtime. Плагин позволяет загружать и управлять несколькими голосовыми моделями через редактор, которые затем могут быть упакованы с вашим проектом.

Основная функциональность состоит из обработки текстового ввода и выбора голосовой модели для синтеза. Некоторые голосовые модели поддерживают нескольких дикторов — например, English LibriTTS включает более 900 различных дикторов, German Thorsten Emotional имеет 7 дикторов и т.д. Выходные данные представляют собой аудиоданные в формате PCM (в формате с плавающей запятой) с соответствующей частотой дискретизации и количеством каналов. Эти данные можно обрабатывать двумя способами:

  • Обычный синтез: Получить полные аудиоданные по завершении синтеза
  • Потоковый синтез: Получать аудиоданные фрагментами по мере их генерации, что позволяет обрабатывать их в реальном времени

Преобразование этих сырых аудиоданных в воспроизводимую звуковую волну обычно требует плагина Runtime Audio Importer, который предоставляет возможности как обычного, так и потокового воспроизведения.

Дополнительные ресурсы