Параметры инференса

Структура параметров инференса LLM управляет тем, как модель загружается и генерирует текст. Вы передаете эти параметры при загрузке модели. На этой странице описывается каждый параметр и его эффект.

Справочник параметров

Параметр	Тип	По умолчанию	Диапазон	Описание
Max Tokens	int32	512	1–8192	Максимальное количество токенов для генерации за один ответ
Temperature	float	0.7	0.0–2.0	Управляет случайностью. 0.0 = детерминированный вывод. Более высокие значения = более креативный результат
Top P	float	0.9	0.0–1.0	Nucleus sampling. Рассматриваются только токены, совокупная вероятность которых превышает это значение
Top K	int32	40	0–200	Ограничивает выбор K наиболее вероятных токенов. 0 = отключено
Repeat Penalty	float	1.1	0.0–3.0	Штрафует токены, которые уже встречаются в выводе. 1.0 = без штрафа
Num GPU Layers	int32	-1	-1–200	Количество слоёв модели, выгружаемых на GPU. -1 = автоматически. 0 = только CPU
Context Size	int32	2048	128–131072	Максимальный размер контекстного окна в токенах. Более высокие значения потребляют больше памяти
System Prompt	FString	"You are a helpful assistant."	—	Системная инструкция, формирующая поведение модели
Seed	int32	-1	-1+	Случайное зерно для воспроизводимого вывода. -1 = случайное
Num Threads	int32	0	0–128	Количество потоков CPU для генерации. 0 = автоматически

Использование

Blueprint
C++

Параметры инференса отображаются как пина структуры на узлах загрузки и асинхронных узлах. Разбейте структуру, чтобы задать отдельные значения:

Inference Parameters in Blueprint

Чтобы получить набор параметров по умолчанию в качестве отправной точки, используйте Get Default Inference Params:

Get Default Inference Params

    // Creative writing
    FLLMInferenceParams CreativeParams;
    CreativeParams.MaxTokens = 1024;
    CreativeParams.Temperature = 1.2f;
    CreativeParams.TopP = 0.95f;
    CreativeParams.TopK = 80;
    CreativeParams.RepeatPenalty = 1.2f;
    CreativeParams.SystemPrompt = TEXT("You are a creative storyteller.");

    // Factual / deterministic
    FLLMInferenceParams FactualParams;
    FactualParams.MaxTokens = 256;
    FactualParams.Temperature = 0.1f;
    FactualParams.TopP = 0.5f;
    FactualParams.TopK = 10;
    FactualParams.SystemPrompt = TEXT("Answer questions concisely and accurately.");

    // Mobile-optimized
    FLLMInferenceParams MobileParams;
    MobileParams.MaxTokens = 128;
    MobileParams.ContextSize = 1024;
    MobileParams.NumGPULayers = 0;
    MobileParams.NumThreads = 4;
    MobileParams.SystemPrompt = TEXT("You are a helpful assistant. Keep responses brief.");

    // Get defaults programmatically
    FLLMInferenceParams DefaultParams = URuntimeLocalLLM::GetDefaultInferenceParams();

Параметры инференса

Справочник параметров

Использование

Рекомендации по платформам

Мобильные устройства / VR (Android, iOS, Meta Quest)

Десктоп (Windows, Mac, Linux)

Справочник параметров​

Использование​

Рекомендации по платформам​

Мобильные устройства / VR (Android, iOS, Meta Quest)​

Десктоп (Windows, Mac, Linux)​

Справочник параметров

Использование

Рекомендации по платформам

Мобильные устройства / VR (Android, iOS, Meta Quest)

Десктоп (Windows, Mac, Linux)