Обзор

Runtime Text To Speech — это плагин, который обеспечивает синтез речи из текста в реальном времени, офлайн и кроссплатформенно. Он поддерживает 45 языков, более 900 голосов и 140+ качеств голоса – а теперь включает Kokoro 🚀, передовое семейство голосовых моделей с открытым исходным кодом и качеством студийного уровня. Плагин быстрый, легковесный и идеально подходит для игр, приложений и проектов, требующих естественно звучащей речи.
В настоящее время плагин поддерживает следующие платформы: Windows, Linux, Mac, Android (включая Meta Quest) и iOS.
📹 Посмотрите в действии
Посмотрите демонстрацию на YouTube или протестируйте общие образцы голосов на Piper Samples.
Kokoro
Плагин также поддерживает голосовые модели Kokoro (включая Kokoro v1.1) — высококачественные архитектуры синтеза речи с открытым исходным кодом, недавно опубликованные на Hugging Face.
- 152 высококачественные модели для 8 языков:
🇺🇸 Английский (США) • 🇬🇧 Английский (Великобритания) • 🇨🇳 Упрощенный китайский • 🇪🇸 Испанский • 🇧🇷 Португальский • 🇮🇳 Хинди • 🇫🇷 Французский • 🇮🇹 Итальянский - Доступен живой предпросмотр: Протестируйте голоса Kokoro
Голосовые модели Kokoro в настоящее время являются одними из самых высококачественных решений для синтеза речи с открытым исходным кодом на сегодняшний день.
Ключевые особенности
- Полностью автономный синтез: Не требуется подключение к интернету
- Несколько режимов синтеза:
- Обычный синтез: Генерация полного аудио для всего текста
- Потоковый синтез: Обработка аудиофрагментов в реальном времени по мере их генерации
- Поддержка отмены: Прервать текущую операцию синтеза в любой момент
- Кроссплатформенная совместимость: Работает на всех основных платформах
- Поддержка Blueprint и C++: Полный доступ к API в обеих средах
Установка
Чтобы начать, установите голосовые модели через настройки плагина при первом запуске. После установки вы можете начать использовать плагин в своем проекте. Подробные инструкции смотрите на странице Как использовать плагин.
Детали плагина
Этот плагин обеспечивает синтез речи из текста в реальном времени с использованием библиотек Piper, Kokoro и ONNX Runtime. Плагин позволяет загружать и управлять несколькими голосовыми моделями через редактор, которые затем могут быть упакованы с вашим проектом.
Основная функциональность состоит из обработки текстового ввода и выбора голосовой модели для синтеза. Некоторые голосовые модели поддерживают нескольких говорящих — например, English LibriTTS включает более 900 различных говорящих, German Thorsten Emotional имеет 7 говорящих и т.д.
Выходные данные — это аудиоданные PCM (в формате float) с соответствующей частотой дискретизации и количеством каналов. Эти данные могут быть обработаны двумя способами:
- Обычный синтез: Получить полные аудиоданные, когда синтез завершен
- Потоковый синтез: Получать аудиоданные фрагментами по мере их генерации, что позволяет обрабатывать их в реальном времени
Преобразование этих сырых аудиоданных в воспроизводимую звуковую волну обычно требует плагина Runtime Audio Importer, который предоставляет возможности как обычного, так и потокового воспроизведения.
Дополнительные ресурсы
- Получить на Fab
- Веб-сайт продукта
- Скачать демо (Windows)
- Discord сервер поддержки
- Видеоурок
- Поддержка плагина и кастомная разработка: [email protected] (индивидуальные решения для команд и организаций)