Обзор
Runtime Text To Speech — это плагин, обеспечивающий синтез речи в реальном времени, оффлайн и кросс-платформенно. Поддерживает 41 язык, более 900 голосов и 190+ вариантов голосовых характеристик, включая новинку — Kokoro 🚀, передовое семейство открытых голосовых моделей со студийным качеством звука. Плагин быстрый, легковесный и идеально подходит для игр, приложений и проектов, требующих естественного звучания речи.
На данный момент плагин поддерживает следующие платформы: Windows, Linux, Mac, Android (включая Meta Quest) и iOS.
📹 Демонстрация
Посмотрите демо на YouTube или протестируйте стандартные голосовые пример ы на Piper Samples.
Kokoro
Плагин теперь включает голосовые модели Kokoro — высококачественные открытые архитектуры TTS, недавно опубликованные на Hugging Face.
- 49 высококачественных моделей для 8 языков:
🇺🇸 Английский (США) • 🇬🇧 Английский (Великобритания) • 🇨🇳 Упрощенный китайский • 🇪🇸 Испанский • 🇧🇷 Португальский • 🇮🇳 Хинди • 🇫🇷 Французский • 🇮🇹 Итальянский - Демо доступно: Протестируйте голоса Kokoro
Голосовые модели Kokoro входят в число лучших открытых решений TTS на сегодняшний день.
Основные возможности
- Полностью оффлайн-синтез: Не требует подключения к интернету
- Несколько режимов синтеза:
- Обычный синтез: Генерация полного аудио для всего текста
- Потоковый синтез: Обработка аудиофрагментов в реальном времени по мере их генерации
- Поддержка отмены: Прерывание синтеза в любой момент
- Кросс-платформенность: Работает на всех основных платформах
- Поддержка Blueprint и C++: Полный доступ к API в обеих средах
Установка
Для начала работы установите голосовые модели через настройки плагина при первом запуске. После установки можно начинать использовать плагин в проекте. Подробные инструкции см. на странице Как использовать плагин.
Детали плагина
Плагин предоставляет синтез речи в реальном времени с использованием библиотек Piper, Kokoro и ONNX Runtime. Плагин позволяет загружать и управлять несколькими голосовыми моделями через редактор, которые затем можно включить в сборку проекта.
Основная функциональность включает обработку текстового ввода и выбор голосовой модели для синтеза. Некоторые модели поддерживают несколько говорящих — например, English LibriTTS включает более 900 разных голосов, German Thorsten Emotional — 7 голосов и т.д.
На выходе получаются PCM-аудиоданные (в формате float) с соответствующей частотой дискретизации и количеством каналов. Эти данные можно обрабатывать двумя способами:
- Обычный синтез: Получение полных а удиоданных после завершения синтеза
- Потоковый синтез: Получение аудиоданных фрагментами по мере генерации для обработки в реальном времени
Преобразование этих сырых аудиоданных в воспроизводимую звуковую волну обычно требует плагина Runtime Audio Importer, который предоставляет возможности как обычного, так и потокового воспроизведения.
Дополнительные ресурсы
- Приобрести на Fab
- Официальный сайт
- Скачать демо (Windows)
- Discord-сервер поддержки
- Видеоурок
- Кастомная разработка: [email protected] (индивидуальные решения для команд и организаций)