Перейти к основному содержимому

Обзор

Runtime Text To Speech Documentation

Runtime Text To Speech — это плагин, обеспечивающий синтез речи в реальном времени, оффлайн и кросс-платформенно. Он поддерживает 40 языков, более 900 голосов и 160+ вариантов голосовых характеристик, а теперь включает Kokoro 🚀 — передовое семейство открытых голосовых моделей со студийным качеством звучания. Плагин быстрый, легковесный и идеально подходит для игр, приложений и проектов, требующих естественного звучания речи.

В настоящее время плагин поддерживает следующие платформы: Windows, Linux, Mac, Android (включая Meta Quest) и iOS.

📹 Демонстрация
Посмотрите демо на YouTube или протестируйте стандартные голосовые примеры на Piper Samples.

Kokoro

Плагин теперь включает голосовые модели Kokoro — высококачественные открытые архитектуры TTS, недавно опубликованные на Hugging Face.

  • 53 высококачественные модели для 7 языков:
    🇺🇸 Английский (США) • 🇬🇧 Английский (Великобритания) • 🇨🇳 Упрощенный китайский • 🇪🇸 Испанский • 🇧🇷 Португальский • 🇮🇳 Хинди • 🇫🇷 Французский
  • Доступен живой превью: Протестируйте голоса Kokoro
Почему Kokoro?

Голосовые модели Kokoro входят в число самых качественных открытых решений TTS на сегодняшний день.

Установка

Для начала установите голосовые модели через настройки плагина при первом запуске. После установки вы можете начать использовать плагин в своем проекте. Подробные инструкции см. на странице Как использовать плагин.

Детали плагина

Этот плагин предоставляет синтез речи в реальном времени с использованием библиотек Piper, Kokoro и ONNX Runtime. Плагин позволяет загружать и управлять несколькими голосовыми моделями через редактор, которые затем можно включить в ваш проект.

Основная функциональность включает обработку текстового ввода и выбор голосовой модели для синтеза. Некоторые голосовые модели поддерживают нескольких говорящих — например, English LibriTTS включает более 900 разных голосов, German Thorsten Emotional имеет 7 голосов и т. д. На выходе получаются PCM-данные аудио (в формате float) с соответствующей частотой дискретизации и количеством каналов. Для преобразования этих сырых аудиоданных в воспроизводимую звуковую волну требуется плагин Runtime Audio Importer.

Дополнительные ресурсы