Обзор

Runtime Text To Speech — это плагин, обеспечивающий синтез речи из текста в реальном времени, офлайн и кроссплатформенно. Он поддерживает 44 языка, более 900 голосов и 200+ качеств голоса — а теперь включает Kokoro 🚀, передовое семейство голосовых моделей с открытым исходным кодом, обеспечивающее студийное качество звука. Плагин быстрый, легковесный и идеально подходит для игр, приложений и проектов, требующих естественно звучащей речи.
В настоящее время плагин поддерживает следующие платформы: Windows, Linux, Mac, Android (включая Meta Quest) и iOS.
📹 Посмотрите в действии
Посмотрите демонстрацию на YouTube или протестируйте общие голосовые примеры на Piper Samples.
Kokoro
Плагин также поддерживает голосовые модели Kokoro — высококачественные архитектуры синтеза речи с открытым исходным кодом, недавно опубликованные на Hugging Face.
- 49 высококачественных моделей для 8 языков:
🇺🇸 Английский (США) • 🇬🇧 Английский (Великобритания) • 🇨🇳 Упрощенный китайский • 🇪🇸 Испанский • 🇧🇷 Португальский • 🇮🇳 Хинди • 🇫🇷 Французский • 🇮🇹 Итальянский - Доступен живой предпросмотр: Протестируйте голоса Kokoro
Голосовые модели Kokoro в настоящее время являются одними из самых высококачественных решений для синтеза речи с открытым исходным кодом.
Ключевые особенности
- Полностью автономный синтез: Не требуется подключение к интернету
- Несколько режимов синтеза:
- Обычный синтез: Генерация полного аудио для всего текста
- Потоковый синтез: Обработка аудиофрагментов в реальном времени по мере их генерации
- Поддержка отмены: Возможность прервать операцию синтеза в любой момент
- Кроссплатформенная совместимость: Работает на всех основных платформах
- Поддержка Blueprint и C++: Полный доступ к API в обеих средах
Установка
Чтобы начать, установите голосовые модели через настройки плагина при первом запуске. После установки вы можете начать использовать плагин в своем проекте. Подробные инструкции смотрите на странице Как использовать плагин.
Детали плагина
Этот плагин обеспечивает синтез речи из текста в реальном времени с использованием библиотек Piper, Kokoro и ONNX Runtime. Плагин позволяет загружать и управлять несколькими голосовыми моделями через редактор, которые затем могут быть упакованы с вашим проектом.
Основная функциональность состоит из обработки текстового ввода и выбора голосовой модели для синтеза. Некоторые голосовые модели поддерживают нескольких дикторов — например, English LibriTTS включает более 900 различных дикторов, German Thorsten Emotional имеет 7 дикторов и т.д. Выходные данные представляют собой аудиоданные в формате PCM (в формате с плавающей запятой) с соответствующей частотой дискретизации и количеством каналов. Эти данные можно обрабатывать двумя способами:
- Обычный синтез: Получить полные аудиоданные по завершении синтеза
- Потоковый синтез: Получать аудиоданные фрагментами по мере их генерации, что позволяет обрабатывать их в реальном времени
Преобразование этих сырых аудиоданных в воспроизводимую звуковую волну обычно требует плагина Runtime Audio Importer, который предоставляет возможности как обычного, так и потокового воспроизведения.
Дополнительные ресурсы
- Получить на Fab
- Веб-сайт продукта
- Скачать демо (Windows)
- Сервер поддержки в Discord
- Видеоурок
- Поддержка плагина и индивидуальная разработка: [email protected] (индивидуальные решения для команд и организаций)