Перейти к основному содержимому

Обзор

Runtime Text To Speech Documentation

Runtime Text To Speech — это плагин, обеспечивающий синтез речи в реальном времени, оффлайн и с кроссплатформенной поддержкой. Он поддерживает 40 языков, более 900 голосов и 160+ вариантов качества голоса — теперь с Kokoro 🚀, передовым семейством открытых голосовых моделей со студийным качеством звучания. Плагин быстрый, легковесный и идеально подходит для игр, приложений и проектов, требующих естественного звучания речи.

В настоящее время плагин поддерживает следующие платформы: Windows, Linux, Mac, Android (включая Meta Quest) и iOS.

📹 Посмотрите в действии
Ознакомьтесь с демонстрацией на YouTube или протестируйте стандартные голосовые примеры на Piper Samples.

Kokoro

Теперь плагин включает голосовые модели Kokoro — высококачественные открытые архитектуры синтеза речи, недавно опубликованные на Hugging Face.

  • 49 высококачественных моделей для 8 языков:
    🇺🇸 Английский (США) • 🇬🇧 Английский (Великобритания) • 🇨🇳 Упрощенный китайский • 🇪🇸 Испанский • 🇧🇷 Португальский • 🇮🇳 Хинди • 🇫🇷 Французский • 🇮🇹 Итальянский
  • Доступен живой превью: Протестируйте голоса Kokoro
Почему Kokoro?

Голосовые модели Kokoro входят в число самых качественных открытых решений для синтеза речи на сегодняшний день.

Ключевые возможности

  • Полностью оффлайн-синтез: Не требует подключения к интернету
  • Несколько режимов синтеза:
    • Обычный синтез: Генерация полного аудио для всего текста
    • Потоковый синтез: Обработка аудиофрагментов в реальном времени по мере их генерации
  • Поддержка отмены: Возможность прервать синтез в любой момент
  • Кроссплатформенная совместимость: Работает на всех основных платформах
  • Поддержка Blueprint и C++: Полный доступ к API в обеих средах

Установка

Для начала работы установите голосовые модели через настройки плагина при первом запуске. После установки вы можете начать использовать плагин в своем проекте. Подробные инструкции см. на странице Как использовать плагин.

Детали плагина

Этот плагин предоставляет синтез речи в реальном времени с использованием библиотек Piper, Kokoro и ONNX Runtime. Плагин позволяет загружать и управлять несколькими голосовыми моделями через редактор, которые затем могут быть включены в ваш проект.

Основная функциональность включает обработку текстового ввода и выбор голосовой модели для синтеза. Некоторые модели поддерживают нескольких говорящих — например, English LibriTTS включает более 900 различных голосов, German Thorsten Emotional — 7 голосов и т. д.

На выходе получаются PCM-аудиоданные (в формате float) с соответствующей частотой дискретизации и количеством каналов. Эти данные можно обрабатывать двумя способами:

  • Обычный синтез: Получение полных аудиоданных после завершения синтеза
  • Потоковый синтез: Получение аудиоданных фрагментами по мере их генерации, что позволяет обрабатывать их в реальном времени

Для преобразования этих сырых аудиоданных в воспроизводимую звуковую волну обычно требуется плагин Runtime Audio Importer, который предоставляет возможности как обычного, так и потокового воспроизведения.

Дополнительные ресурсы