Перейти к основному содержимому

Список параметров распознавания

Эти параметры могут быть установлены только тогда, когда распознавание не запущено.

Это не исчерпывающий список параметров, доступных в Whisper. Здесь представлены только наиболее важные. При необходимости этот список будет обновлен.

Установка параметров распознавания

Устанавливает параметры для распознавания речи. Если вы хотите изменить только конкретные параметры, рассмотрите возможность использования индивидуальных функций установки.

Установка стандартных параметров для потоковой передачи

Устанавливает стандартные параметры, подходящие для потокового распознавания речи.

Установка стандартных параметров для не потоковой передачи

Устанавливает стандартные параметры, подходящие для не потокового распознавания речи.

Установка количества потоков

Устанавливает количество потоков для использования в распознавании речи. Установите это значение в 0, чтобы использовать количество ядер.

Установка языка

Устанавливает язык для использования в распознавании речи. Должен поддерживаться выбранной языковой моделью в настройках редактора.

Установка языка на Авто снизит точность и производительность распознавания.

Установка перевода на английский

Устанавливает необходимость перевода распознанных слов на английский. Если true, языковая модель должна быть многоязычной.

Установка размера шага

Устанавливает размер шага в миллисекундах. Определяет, как часто отправлять аудио данные для распознавания. Значение по умолчанию — 5000 мс (5 секунд).

Установка без контекста

Определяет, нужно ли использовать предыдущие транскрипции (если они есть) в качестве начальной подсказки для декодера.

Установка единственного сегмента

Определяет необходимость принудительного вывода в виде единственного сегмента (полезно для потоковой передачи).

Установка максимального количества токенов

Устанавливает максимальное количество токенов на текстовый сегмент. Используйте 0 для отсутствия ограничений.

Ускорение распознавания

Определяет, нужно ли ускорять распознавание в 2 раза с помощью Phase Vocoder. Установите это значение false для повышения качества вывода.

Установка размера аудио контекста

Устанавливает размер аудио контекста. Установите это значение 0 для повышения качества вывода.

Установка увеличения температуры

Устанавливает температуру для увеличения при возвращении назад, когда декодирование не соответствует одному из нижеперечисленных порогов.

Установка порога энтропии

Устанавливает порог энтропии. Если коэффициент сжатия выше этого значения, декодирование считается неудачным. Аналогично "compression_ratio_threshold" от OpenAI

Установка подавления пробелов

Определяет, необходимо ли подавлять пробелы в выводе.

Установка подавления не речевых токенов

Определяет, необходимо ли подавлять не речевые токены в выводе.

Установка размера луча

Устанавливает количество лучей в процессе поиска. Применимо только при нулевой температуре.

Установка начальной подсказки

Устанавливает начальную подсказку для первого окна. Это можно использовать для предоставления контекста, чтобы сделать предсказание слов более вероятным, например, специальные словари или имена собственные.

Установка ID устройства GPU

Устанавливает ID устройства GPU для использования в распознавании речи. Значение по умолчанию — 0. Это полезно для систем с несколькими GPU, чтобы указать, какой GPU должен использоваться в процессе распознавания. Если указанный ID устройства GPU недействителен, будет использоваться первый доступный индекс устройства GPU.