Перейти к основному содержимому

Параметры инференса

Структура параметров инференса LLM управляет тем, как модель загружается и генерирует текст. Вы передаете эти параметры при загрузке модели. На этой странице описывается каждый параметр и его эффект.

Справочник параметров

ПараметрТипПо умолчаниюДиапазонОписание
Max Tokensint325121–8192Максимальное количество токенов для генерации за один ответ
Temperaturefloat0.70.0–2.0Управляет случайностью. 0.0 = детерминированный вывод. Более высокие значения = более креативный результат
Top Pfloat0.90.0–1.0Nucleus sampling. Рассматриваются только токены, совокупная вероятность которых превышает это значение
Top Kint32400–200Ограничивает выбор K наиболее вероятных токенов. 0 = отключено
Repeat Penaltyfloat1.10.0–3.0Штрафует токены, которые уже встречаются в выводе. 1.0 = без штрафа
Num GPU Layersint32-1-1–200Количество слоёв модели, выгружаемых на GPU. -1 = автоматически. 0 = только CPU
Context Sizeint322048128–131072Максимальный размер контекстного окна в токенах. Более высокие значения потребляют больше памяти
System PromptFString"You are a helpful assistant."Системная инструкция, формирующая поведение модели
Seedint32-1-1+Случайное зерно для воспроизводимого вывода. -1 = случайное
Num Threadsint3200–128Количество потоков CPU для генерации. 0 = автоматически

Использование

Параметры инференса отображаются как пина структуры на узлах загрузки и асинхронных узлах. Разбейте структуру, чтобы задать отдельные значения:

Inference Parameters in Blueprint

Чтобы получить набор параметров по умолчанию в качестве отправной точки, используйте Get Default Inference Params:

Get Default Inference Params

Рекомендации по платформам

Мобильные устройства / VR (Android, iOS, Meta Quest)

  • Context Size: 1024–2048
  • Num GPU Layers: 0 (только CPU), если устройство не подтверждает поддержку GPU-вычислений
  • Max Tokens: менее 256 для быстрой реакции
  • Num Threads: 2–4 в зависимости от устройства

Десктоп (Windows, Mac, Linux)

  • Context Size: 2048–8192 для большинства разговоров
  • Num GPU Layers: -1 (авто) для использования ускорения GPU, когда доступно
  • Num Threads: 0 (авто)
  • Max Tokens: 512–2048 для более длинных ответов