Обзор

Runtime Text To Speech — это плагин, обеспечивающий синтез речи в реальном времени, в офлайн-режиме и на разных платформах. Он поддерживает 51 язык, более 2800 голосов и 75 качеств голоса, а теперь включает Kokoro — семейство голосовых моделей с открытым исходным кодом и качеством студийного уровня. Плагин быстрый, легковесный и идеально подходит для игр, приложений и проектов, где требуется естественно звучащая речь.

В настоящее время плагин поддерживает следующие платформы: Windows, Linux, Mac, Android (включая Meta Quest) и iOS.

📹 Посмотрите в действии
Посмотрите демонстрацию на YouTube (старое видео) или протестируйте образцы голосов на Piper Samples.

Kokoro

Плагин также поддерживает голосовые модели Kokoro (включая Kokoro v1.1) — высококачественные архитектуры TTS с открытым исходным кодом, недавно опубликованные на Hugging Face.

151 высококачественных моделей на 8 языках:
🇺🇸 Английский (США) • 🇬🇧 Английский (Великобритания) • 🇨🇳 Упрощённый китайский • 🇪🇸 Испанский • 🇧🇷 Португальский • 🇮🇳 Хинди • 🇫🇷 Французский • 🇮🇹 Итальянский
Доступен живой предпросмотр: Протестируйте голоса Kokoro

Why Kokoro?

Голосовые модели Kokoro в настоящее время являются одними из самых качественных открытых решений TTS, доступных на сегодняшний день.

Ключевые возможности

Полный офлайн-синтез: не требуется подключение к интернету
Несколько режимов синтеза:
- Обычный синтез: генерация полного аудио для всего текста
- Потоковый синтез: обработка аудиофрагментов в реальном времени по мере их создания
Поддержка отмены: возможность прервать текущие операции синтеза в любой момент
Кроссплатформенная совместимость: работает на всех основных платформах
Поддержка Blueprint и C++: полный доступ к API в обеих средах

Установка

Чтобы начать работу, установите голосовые модели через настройки плагина при первом запуске. После установки можно приступать к использованию плагина в вашем проекте. Подробные инструкции см. на странице Как использовать плагин.

Подробности о плагине

Плагин обеспечивает синтез речи в реальном времени с использованием библиотек Piper, Kokoro и ONNX Runtime. Плагин позволяет загружать и управлять несколькими голосовыми моделями через редактор, которые затем можно упаковать вместе с проектом.

Основная функциональность заключается в обработке ввода текста и выборе голосовой модели для синтеза. Некоторые голосовые модели поддерживают несколько дикторов — например, английская LibriTTS включает более 900 различных дикторов, немецкая Thorsten Emotional имеет 7 дикторов и т.д.

На выходе получаются аудиоданные PCM (в формате float) с соответствующей частотой дискретизации и количеством каналов. Эти данные можно обрабатывать двумя способами:

Обычный синтез: получение полных аудиоданных по завершении синтеза
Потоковый синтез: получение аудиоданных фрагментами по мере их генерации, что позволяет выполнять обработку в реальном времени

Преобразование этих необработанных аудиоданных в воспроизводимую звуковую волну обычно требует плагина Runtime Audio Importer, который предоставляет как обычное, так и потоковое воспроизведение.

Дополнительные ресурсы

Получить на Fab
Сайт продукта
Скачать демо (Windows)
Видеоурок (старое видео)
Поддержка плагина и индивидуальная разработка: [email protected] (индивидуальные решения для команд и организаций)

Join our Discord

online · support

Kokoro​

Ключевые возможности​

Установка​

Подробности о плагине​

Дополнительные ресурсы​

Kokoro

Ключевые возможности

Установка

Подробности о плагине

Дополнительные ресурсы