Перейти к основному содержимому

Обзор

Документация Runtime Text To Speech

Runtime Text To Speech — это плагин, который обеспечивает реальное время, автономный и кроссплатформенный синтез речи. Он поддерживает 40 языков, более 900 голосов и 160+ качеств голоса — теперь с функцией Kokoro 🚀, передовой open-source моделью голоса с качеством студийной записи. Плагин быстрый, легковесный и идеально подходит для игр, приложений и проектов, требующих естественно звучащей речи.

В настоящее время плагин поддерживает следующие платформы: Windows, Linux, Mac, Android (включая Meta Quest) и iOS.

📹 Посмотрите в действии
Посмотрите YouTube Демо или протестируйте стандартные образцы голосов на Piper Samples.

Kokoro

Теперь плагин реализует модели голоса Kokoro - высококачественные open-source TTS архитектуры, недавно опубликованные на Hugging Face.

  • 45 высококачественных моделей на 6 языках:
    🇺🇸 Английский (США) • 🇬🇧 Английский (Великобритания) • 🇪🇸 Испанский • 🇧🇷 Португальский • 🇮🇳 Хинди • 🇫🇷 Французский
  • Доступен живой просмотр: Тест голосов Kokoro
Почему Kokoro?

Голосовые модели Kokoro в настоящее время являются одними из самых высококачественных open-source TTS решений, доступных сегодня.

Установка

Для начала установите модели голосов через настройки плагина при первом запуске. После установки вы можете начать использовать плагин в вашем проекте. Подробные инструкции смотрите на странице Как использовать плагин.

Подробности плагина

Этот плагин предоставляет синтез речи в реальном времени с использованием библиотек Piper, Kokoro и ONNX Runtime. Плагин позволяет загружать и управлять несколькими моделями голоса через редактор, которые затем могут быть упакованы вместе с вашим проектом.

Основная функциональность состоит из обработки текстового ввода и выбора модели голоса для синтеза. Некоторые модели голоса поддерживают несколько говорящих — например, English LibriTTS включает более 900 различных говорящих, German Thorsten Emotional имеет 7 говорящих и т.д. Выходными данными является PCM аудио (в формате float) с соответствующей частотой дискретизации и количеством каналов. Для преобразования этих необработанных аудиоданных в воспроизводимую звуковую волну необходим плагин Runtime Audio Importer.

Дополнительные ресурсы