Перейти к основному содержимому

Обзор

Документация Runtime Text To Speech

Runtime Text To Speech — это плагин, который обеспечивает синтез речи из текста в реальном времени, офлайн и кроссплатформенно. Он поддерживает 45 языков, более 900 голосов и 140+ качеств голоса – а теперь включает Kokoro 🚀, передовое семейство голосовых моделей с открытым исходным кодом и качеством студийного уровня. Плагин быстрый, легковесный и идеально подходит для игр, приложений и проектов, требующих естественно звучащей речи.

В настоящее время плагин поддерживает следующие платформы: Windows, Linux, Mac, Android (включая Meta Quest) и iOS.

📹 Посмотрите в действии
Посмотрите демонстрацию на YouTube или протестируйте общие образцы голосов на Piper Samples.

Kokoro

Плагин также поддерживает голосовые модели Kokoro (включая Kokoro v1.1) — высококачественные архитектуры синтеза речи с открытым исходным кодом, недавно опубликованные на Hugging Face.

  • 152 высококачественные модели для 8 языков:
    🇺🇸 Английский (США) • 🇬🇧 Английский (Великобритания) • 🇨🇳 Упрощенный китайский • 🇪🇸 Испанский • 🇧🇷 Португальский • 🇮🇳 Хинди • 🇫🇷 Французский • 🇮🇹 Итальянский
  • Доступен живой предпросмотр: Протестируйте голоса Kokoro
Почему Kokoro?

Голосовые модели Kokoro в настоящее время являются одними из самых высококачественных решений для синтеза речи с открытым исходным кодом на сегодняшний день.

Ключевые особенности

  • Полностью автономный синтез: Не требуется подключение к интернету
  • Несколько режимов синтеза:
    • Обычный синтез: Генерация полного аудио для всего текста
    • Потоковый синтез: Обработка аудиофрагментов в реальном времени по мере их генерации
  • Поддержка отмены: Прервать текущую операцию синтеза в любой момент
  • Кроссплатформенная совместимость: Работает на всех основных платформах
  • Поддержка Blueprint и C++: Полный доступ к API в обеих средах

Установка

Чтобы начать, установите голосовые модели через настройки плагина при первом запуске. После установки вы можете начать использовать плагин в своем проекте. Подробные инструкции смотрите на странице Как использовать плагин.

Детали плагина

Этот плагин обеспечивает синтез речи из текста в реальном времени с использованием библиотек Piper, Kokoro и ONNX Runtime. Плагин позволяет загружать и управлять несколькими голосовыми моделями через редактор, которые затем могут быть упакованы с вашим проектом.

Основная функциональность состоит из обработки текстового ввода и выбора голосовой модели для синтеза. Некоторые голосовые модели поддерживают нескольких говорящих — например, English LibriTTS включает более 900 различных говорящих, German Thorsten Emotional имеет 7 говорящих и т.д.

Выходные данные — это аудиоданные PCM (в формате float) с соответствующей частотой дискретизации и количеством каналов. Эти данные могут быть обработаны двумя способами:

  • Обычный синтез: Получить полные аудиоданные, когда синтез завершен
  • Потоковый синтез: Получать аудиоданные фрагментами по мере их генерации, что позволяет обрабатывать их в реальном времени

Преобразование этих сырых аудиоданных в воспроизводимую звуковую волну обычно требует плагина Runtime Audio Importer, который предоставляет возможности как обычного, так и потокового воспроизведения.

Дополнительные ресурсы