Обзор
Runtime Text To Speech — это плагин, обеспечивающий синтез речи в реальном времени, оффлайн и с кроссплатформенной поддержкой. Он поддерживает 40 языков, более 900 голосов и 160+ вариантов качества голоса — теперь с Kokoro 🚀, передовым семейством открытых голосовых моделей со студийным качеством звучания. Плагин быстрый, легковесный и идеально подходит для игр, приложений и проектов, требующих естественного звучания речи.
В настоящее время плагин поддерживает следующие платформы: Windows, Linux, Mac, Android (включая Meta Quest) и iOS.
📹 Посмотрите в действии
Ознакомьтесь с демонстрацией на YouTube или протестируйте стандартные голосовые примеры на Piper Samples.
Kokoro
Теперь плагин включает голосовые модели Kokoro — высококачественные открытые архитектуры синтеза речи, недавно опубликованные на Hugging Face.
- 49 высококачественных моделей для 8 языков:
🇺🇸 Английский (США) • 🇬🇧 Английский (Великобритания) • 🇨🇳 Упрощенный китайский • 🇪🇸 Испанский • 🇧🇷 Португальский • 🇮🇳 Хинди • 🇫🇷 Французский • 🇮🇹 Итальянский - Доступен живой превью: Протестируйте голоса Kokoro
Голосовые модели Kokoro входят в число самых качественных открытых решений для синтеза речи на сегодняшний день.
Ключевые возможности
- Полностью оффлайн-синтез: Не требует подключения к интернету
- Несколько режимов синтеза:
- Обычный синтез: Генерация полного аудио для всего текста
- Потоковый синтез: Обработка аудиофрагментов в реальном времени по мере их генерации
- Поддержка отмены: Возможность прервать синтез в любой момент
- Кроссплатформенная совместимость: Работает на всех основных платформах
- Поддержка Blueprint и C++: Полный доступ к API в обеих средах
Установка
Для начала работы установите голосовые модели через настройки плагина при пе рвом запуске. После установки вы можете начать использовать плагин в своем проекте. Подробные инструкции см. на странице Как использовать плагин.
Детали плагина
Этот плагин предоставляет синтез речи в реальном времени с использованием библиотек Piper, Kokoro и ONNX Runtime. Плагин позволяет загружать и управлять несколькими голосовыми моделями через редактор, которые затем могут быть включены в ваш проект.
Основная функциональность включает обработку текстового ввода и выбор голосовой модели для синтеза. Некоторые модели поддерживают нескольких говорящих — например, English LibriTTS включает более 900 различных голосов, German Thorsten Emotional — 7 голосов и т. д.
На выходе получаются PCM-аудиоданные (в формате float) с соответствующей частотой дискретизации и количеством каналов. Эти данные можно обрабатывать двумя способами:
- Обычный синтез: Получение полных аудиоданных после завершения синтеза
- Потоковый синтез: Получение аудиоданных фрагментами по мере их генерации, что позволяет обрабатывать их в реальном времени
Для преобразования этих сырых аудиоданных в воспроизводимую звуковую волну обычно требуется плагин Runtime Audio Importer, который предоставляет возможности как обычного, так и потокового воспроизведения.
Дополнительные ресурсы
- Приобрести на Fab
- Официальный сайт
- Скачать демо (Windows)
- Discord-сервер поддержки
- Видеоурок
- Кастомизация: [email protected] (индивидуальные решения для команд и организаций)