Перейти к основному содержимому

Параметры вывода

Структура параметров вывода LLM управляет тем, как модель загружается и генерирует текст. Вы передаёте эти параметры при загрузке модели. На этой странице описан каждый параметр и его действие.

Справочник параметров

ПараметрTypeПо умолчаниюДиапазонОписание
Макс. токеновint325121–8192Максимальное количество токенов для генерации в одном ответе
Температураплавать0.70.0–2.0Управляет случайностью. 0.0 = детерминированный результат. Более высокие значения = более творческий вывод.
Top Pплавать0.90.0–1.0Ядерная выборка. Рассматриваются только те токены, чья совокупная вероятность превышает это значение.
Top Kint32400–200Ограничивает выбор K наиболее вероятными токенами. 0 = отключено.
Штраф за повторениеплавать1.10.0–3.0Штрафует токены, которые уже появились в выводе. 1.0 = без штрафа
Количество слоев GPUint32-1-1–200Слои модели для выгрузки на GPU. -1 = авто. 0 = только CPU.
Размер контекстаint322048128–131072Максимальный размер контекстного окна в токенах. Большие значения потребляют больше памяти.
Системный промптFString«Вы — полезный помощник.»Системная инструкция, определяющая поведение модели
Seedint32-1-1+Случайное начальное значение для воспроизводимого результата. -1 = случайно.
Количество потоковint3200–128Потоки ЦП для генерации. 0 = автоматически.

Использование

Параметры инференса отображаются в виде структурного пина на узлах загрузки и асинхронных узлах. Разбейте структуру, чтобы задать отдельные значения.

Inference Parameters in Blueprint

Чтобы получить стандартный набор параметров в качестве отправной точки, используйте Get Default Inference Params:

Get Default Inference Params

Рекомендации по платформам

Мобильные устройства / VR (Android, iOS, Meta Quest)

  • Размер контекста: 1024–2048
  • Количество слоев GPU: 0 (только CPU), если только устройство не имеет подтвержденной поддержки GPU-вычислений
  • Максимальное количество токенов: менее 256 для отзывчивого взаимодействия
  • Количество потоков: 2–4 в зависимости от устройства

Настольные ПК (Windows, Mac, Linux)

  • Размер контекста: 2048–8192 для большинства диалогов
  • Количество слоёв GPU: -1 (авто) для использования ускорения GPU, если доступно
  • Количество потоков: 0 (авто)
  • Максимум токенов: 512–2048 для более длинных ответов

Длительные разговоры

Если ваше приложение поддерживает длительные диалоги (диалоги NPC, постоянные ассистенты, ролевые игры), рассмотрите возможность сочетания размера контекста с автоматическим обобщением, а не просто увеличения Context Size. Скромный Context Size в 2048–4096 с включенным автообобщением обеспечивает стабильную задержку и использование памяти, тогда как более широкие окна контекста делают каждую генерацию постепенно медленнее. См. Автоматическое обобщение контекста.