Перейти к основному содержимому

Обзор

Runtime Text To Speech Documentation

Runtime Text To Speech — это плагин, обеспечивающий синтез речи в реальном времени, оффлайн и кросс-платформенно. Поддерживает 41 язык, более 900 голосов и 190+ вариантов голосовых характеристик, включая новинку — Kokoro 🚀, передовое семейство открытых голосовых моделей со студийным качеством звука. Плагин быстрый, легковесный и идеально подходит для игр, приложений и проектов, требующих естественного звучания речи.

На данный момент плагин поддерживает следующие платформы: Windows, Linux, Mac, Android (включая Meta Quest) и iOS.

📹 Демонстрация
Посмотрите демо на YouTube или протестируйте стандартные голосовые примеры на Piper Samples.

Kokoro

Плагин теперь включает голосовые модели Kokoro — высококачественные открытые архитектуры TTS, недавно опубликованные на Hugging Face.

  • 49 высококачественных моделей для 8 языков:
    🇺🇸 Английский (США) • 🇬🇧 Английский (Великобритания) • 🇨🇳 Упрощенный китайский • 🇪🇸 Испанский • 🇧🇷 Португальский • 🇮🇳 Хинди • 🇫🇷 Французский • 🇮🇹 Итальянский
  • Демо доступно: Протестируйте голоса Kokoro
Почему Kokoro?

Голосовые модели Kokoro входят в число лучших открытых решений TTS на сегодняшний день.

Основные возможности

  • Полностью оффлайн-синтез: Не требует подключения к интернету
  • Несколько режимов синтеза:
    • Обычный синтез: Генерация полного аудио для всего текста
    • Потоковый синтез: Обработка аудиофрагментов в реальном времени по мере их генерации
  • Поддержка отмены: Прерывание синтеза в любой момент
  • Кросс-платформенность: Работает на всех основных платформах
  • Поддержка Blueprint и C++: Полный доступ к API в обеих средах

Установка

Для начала работы установите голосовые модели через настройки плагина при первом запуске. После установки можно начинать использовать плагин в проекте. Подробные инструкции см. на странице Как использовать плагин.

Детали плагина

Плагин предоставляет синтез речи в реальном времени с использованием библиотек Piper, Kokoro и ONNX Runtime. Плагин позволяет загружать и управлять несколькими голосовыми моделями через редактор, которые затем можно включить в сборку проекта.

Основная функциональность включает обработку текстового ввода и выбор голосовой модели для синтеза. Некоторые модели поддерживают несколько говорящих — например, English LibriTTS включает более 900 разных голосов, German Thorsten Emotional — 7 голосов и т.д.

На выходе получаются PCM-аудиоданные (в формате float) с соответствующей частотой дискретизации и количеством каналов. Эти данные можно обрабатывать двумя способами:

  • Обычный синтез: Получение полных аудиоданных после завершения синтеза
  • Потоковый синтез: Получение аудиоданных фрагментами по мере генерации для обработки в реальном времени

Преобразование этих сырых аудиоданных в воспроизводимую звуковую волну обычно требует плагина Runtime Audio Importer, который предоставляет возможности как обычного, так и потокового воспроизведения.

Дополнительные ресурсы