Обзор

Runtime Text To Speech — это плагин, обеспечивающий синтез речи в реальном времени, в офлайн-режиме и на разных платформах. Он поддерживает 51 язык, более 2800 голосов и 75 качеств голоса, а теперь включает Kokoro — семейство голосовых моделей с открытым исходным кодом и качеством студийного уровня. Плагин быстрый, легковесный и идеально подходит для игр, приложений и проектов, где требуется естественно звучащая речь.
В настоящее время плагин поддерживает следующие платформы: Windows, Linux, Mac, Android (включая Meta Quest) и iOS.
📹 Посмотрите в действии
Посмотрите демонстрацию на YouTube (старое видео) или протестируйте образцы голосов на Piper Samples.
Kokoro
Плагин также поддерживает голосовые модели Kokoro (включая Kokoro v1.1) — высококачественные архитектуры TTS с открытым исходным кодом, недавно опубликованные на Hugging Face.
- 151 высококачественных моделей на 8 языках:
🇺🇸 Английский (США) • 🇬🇧 Английский (Великобритания) • 🇨🇳 Упрощённый китайский • 🇪🇸 Испанский • 🇧🇷 Португальский • 🇮🇳 Хинди • 🇫🇷 Французский • 🇮🇹 Итальянский - Доступен живой предпросмотр: Протестируйте голоса Kokoro
Голосовые модели Kokoro в настоящее время являются одними из самых качественных открытых решений TTS, доступных на сегодняшний день.
Ключевые возможности
- Полный офлайн-синтез: не требуется подключение к интернету
- Несколько режимов синтеза:
- Обычный синтез: генерация полного аудио для всего текста
- Потоковый синтез: обработка аудиофрагментов в реальном времени по мере их создания
- Поддержка отмены: возможность прервать текущие операции синтеза в любой момент
- Кроссплатформенная совместимость: работает на всех основных платформах
- Поддержка Blueprint и C++: полный доступ к API в обеих средах
Установка
Чтобы начать работу, установите голосовые модели через настройки плагина при первом запуске. После установки можно приступать к использованию плагина в вашем проекте. Подробные инструкции см. на странице Как использовать плагин.
Подробности о плагине
Плагин обеспечивает синтез речи в реальном времени с использованием библиотек Piper, Kokoro и ONNX Runtime. Плагин позволяет загружать и управлять несколькими голосовыми моделями через редактор, которые затем можно упаковать вместе с проектом.
Основная функциональность заключается в обработке ввода текста и выборе голосовой модели для синтеза. Некоторые голосовые модели поддерживают несколько дикторов — например, английская LibriTTS включает более 900 различных дикторов, немецкая Thorsten Emotional имеет 7 дикторов и т.д.
На выходе получаются аудиоданные PCM (в формате float) с соответствующей частотой дискретизации и количеством каналов. Эти данные можно обрабатывать двумя способами:
- Обычный синтез: получение полных аудиоданных по завершении синтеза
- Потоковый синтез: получение аудиоданных фрагментами по мере их генерации, что позволяет выполнять обработку в реальном времени
Преобразование этих необработанных аудиоданных в воспроизводимую звуковую волну обычно требует плагина Runtime Audio Importer, который предоставляет как обычное, так и потоковое воспроизведение.
Дополнительные ресурсы
- Получить на Fab
- Сайт продукта
- Скачать демо (Windows)
- Видеоурок (старое видео)
- Поддержка плагина и индивидуальная разработка: [email protected] (индивидуальные решения для команд и организаций)