Как использовать голосовые модели

Выбор, загрузка и упаковка моделей

Плагин поддерживает множество языков, голосов и качеств. Вы можете легко загружать и управлять нужными голосовыми моделями через настройки плагина в редакторе. Следуйте этим шагам, чтобы выбрать, загрузить и подготовить голосовые модели:

Откройте настройки проекта в редакторе и перейдите в Плагины -> Runtime Text To Speech.
В списке Доступные для загрузки голосовые модели нажмите кнопку Загрузить рядом с нужной моделью. Можно загружать несколько моделей одновременно.
После завершения загрузки модели появятся в разделе Загруженные голосовые модели вверху списка и будут доступны для использования в проекте.
При желании вы можете предварительно прослушать загруженные модели, введя текст в поле и нажав кнопку Воспроизвести. Текст будет синтезирован и воспроизведён выбранной моделью. Эта функция удобна для проверки в редакторе, чтобы убедиться, что голосовая модель звучит как ожидалось.

Чтобы удалить загруженные голосовые модели, нажмите кнопку Удалить рядом с моделью, которую хотите убрать.

Все загруженные голосовые модели будут упакованы вместе с вашим проектом, поэтому для уменьшения размера проекта удалите голосовые модели, которые вам больше не нужны.

Полный список языков с предустановленными моделями см. в разделе Поддерживаемые языки.

Импорт пользовательских голосовых моделей

Помимо предварительно настроенных голосовых моделей, вы можете импортировать свои собственные голосовые модели. Это полезно, если вы хотите использовать голос, отсутствующий в предварительно настроенном списке, или если вы хотите добавить поддержку языка, который не поставляется из коробки (см. список дополнительных поддерживаемых языков для списка дополнительных языков, поддерживаемых встроенным фонемайзером).

Плагин поддерживает оба формата голосовых моделей: Piper и Kokoro.

В настройках плагина нажмите кнопку Импорт пользовательской голосовой модели в верхней части экрана.
В появившемся диалоговом окне выберите тип модели (Piper или Kokoro).
Обзор и выберите файл модели:
- Для Piper: выберите файл модели формата ONNX (*.onnx)
- Для Kokoro: выберите файл стиля формата BIN (*.bin)
Выберите соответствующий конфигурационный файл (*.json):
- Для Piper: здесь содержатся настройки, такие как частота дискретизации, сопоставления фонем и параметры вывода
- Для Kokoro: здесь содержится конфигурация токенизатора
Для моделей Kokoro укажите языковой код (например, en-us, en-gb-x-rp, fr, es и т.д.)
Нажмите Import, чтобы добавить пользовательскую голосовую модель в ваш проект.

Заметки о пользовательских голосовых моделях

Модели Piper: Вы можете использовать любую Piper-совместимую модель ONNX с соответствующим конфигурационным файлом JSON. Это полезно для голосов, недоступных в предварительно настроенном списке, или для специально обученных голосов. Вы можете найти обученные сообществом модели Piper на Hugging Face или обучить свои собственные с помощью этого руководства.
Kokoro Models: Эти модели используют двухкомпонентную систему: файлы стилей (формат BIN) и общую модель ONNX. При первом импорте файла стиля Kokoro плагин предложит автоматически загрузить необходимую модель ONNX.
Языковые коды: Для моделей Kokoro код языка важен для корректного преобразования фонем. Часто используемые коды включают:
- Английский (США): en-us
- Английский (Великобритания): en-gb-x-rp
- Испанский: es
- Французский: fr
- Итальянский: it
- Португальский (Бразилия): pt-br
- Китайский (мандарин): cmn
- Хинди: hi
- Немецкий: de

Пользовательские голосовые модели обрабатываются так же, как и загруженные, и будут упакованы вместе с вашим проектом.

Выбор, загрузка и упаковка моделей​

Импорт пользовательских голосовых моделей​

Заметки о пользовательских голосовых моделях​

Выбор, загрузка и упаковка моделей

Импорт пользовательских голосовых моделей

Заметки о пользовательских голосовых моделях