Перейти к основному содержимому

Обзор

Runtime Text To Speech Documentation

Runtime Text To Speech — это плагин, обеспечивающий синтез речи в реальном времени, оффлайн и кроссплатформенную поддержку. Он поддерживает 39 языков, более 900 голосов и 160+ характеристик голоса — теперь с Kokoro 🚀, передовой открытой моделью голоса с выходным звуком студийного качества. Плагин быстрый, легковесный и идеально подходит для игр, приложений и проектов, требующих естественного звучания речи.

В настоящее время плагин поддерживает следующие платформы: Windows, Linux, Mac, Android (включая Meta Quest) и iOS.

📹 Посмотрите его в действии
Посмотрите демо на YouTube или протестируйте образцы голосов на Piper Samples.

Kokoro

Плагин теперь включает модели голоса Kokoro — качественные архитектуры открытого TTS, недавно опубликованные на платформе Hugging Face.

  • 45 моделей высокого качества на 6 языках:
    🇺🇸 Английский (США) • 🇬🇧 Английский (Великобритания) • 🇪🇸 Испанский • 🇧🇷 Португальский • 🇮🇳 Хинди • 🇫🇷 Французский
  • Предварительный просмотр в реальном времени доступен: Тестирование голосов Kokoro
Почему Kokoro?

Модели голосов Kokoro в настоящее время являются одними из самых качественных решений TTS с открытым исходным кодом, доступных сегодня.

Установка

Чтобы начать работу, установите модели голоса через настройки плагина при первом запуске. После установки можно сразу приступать к использованию плагина в проекте. Подробные инструкции смотрите на странице Как использовать плагин.

Подробности о плагине

Этот плагин обеспечивает синтез речи в реальном времени с использованием библиотек Piper, Kokoro и ONNX Runtime. Плагин позволяет загружать и управлять несколькими моделями голоса через редактор, которые затем можно включить в ваш проект.

Основной функционал состоит из обработки ввода текста и выбора модели голоса для синтеза. Некоторые модели голосов поддерживают несколько дикторов — например, English LibriTTS включает более 900 различных дикторов, German Thorsten Emotional имеет 7 дикторов и т. д. Выходом является аудиоданные в формате PCM (в формате float) с соответствующей частотой дискретизации и количеством каналов. Для преобразования этих сырых аудиоданных в воспроизводимую звуковую волну требуется плагин Runtime Audio Importer.