추론 매개변수
LLM 추론 매개변수 구조체는 모델 로딩 및 텍스트 생성 방식을 제어합니다. 모델을 로딩할 때 이 매개변수들을 전달합니다. 이 페이지에서는 각 매개변수와 그 효과에 대해 설명합니다.
매개변수 레퍼런스
| 매개변수 | 타입 | 기본값 | 범위 | 설명 |
|---|---|---|---|---|
| 최대 토큰 | int32 | 512 | 1–8192 | 단일 응답에서 생성할 최대 토큰 수 |
| 온도 | float | 0.7 | 0.0–2.0 | 무작위성을 제어합니다. 0.0 = 결정적. 값이 높을수록 더 창의적인 출력 |
| Top P | float | 0.9 | 0.0–1.0 | Nucleus 샘플링. 누적 확률이 이 값을 초과하는 토큰만 고려됩니다 |
| Top K | int32 | 40 | 0–200 | 가장 확률이 높은 상위 K개의 토큰으로 선택을 제한합니다. 0 = 비활성화 |
| 반복 패널티 | float | 1.1 | 0.0–3.0 | 출력에 이미 나타난 토큰에 패널티를 부여합니다. 1.0 = 패널티 없음 |
| GPU 레이어 수 | int32 | -1 | -1–200 | GPU로 오프로드할 모델 레이어 수. -1 = 자동. 0 = CPU 전용 |
| 컨텍스트 크기 | int32 | 2048 | 128–131072 | 토큰 단위 최대 컨텍스트 윈도우. 값이 클수록 더 많은 메모리 사용 |
| 시스템 프롬프트 | FString | "You are a helpful assistant." | — | 모델의 동작을 형성하는 시스템 명령 |
| 시드 | int32 | -1 | -1+ | 재현 가능한 출력을 위한 무작위 시드. -1 = 무작위 |
| 스레드 수 | int32 | 0 | 0–128 | 생성용 CPU 스레드 수. 0 = 자동 |
사용법
- Blueprint
- C++
추론 매개변수는 로드 및 비동기 노드에서 구조체 핀으로 나타납니다. 구조체를 분해하여 개별 값을 설정하세요:

기본 매개변수 세트를 시작점으로 가져오려면 기본 추론 매개변수 가져오기를 사용하세요:

// Creative writing
FLLMInferenceParams CreativeParams;
CreativeParams.MaxTokens = 1024;
CreativeParams.Temperature = 1.2f;
CreativeParams.TopP = 0.95f;
CreativeParams.TopK = 80;
CreativeParams.RepeatPenalty = 1.2f;
CreativeParams.SystemPrompt = TEXT("You are a creative storyteller.");
// Factual / deterministic
FLLMInferenceParams FactualParams;
FactualParams.MaxTokens = 256;
FactualParams.Temperature = 0.1f;
FactualParams.TopP = 0.5f;
FactualParams.TopK = 10;
FactualParams.SystemPrompt = TEXT("Answer questions concisely and accurately.");
// Mobile-optimized
FLLMInferenceParams MobileParams;
MobileParams.MaxTokens = 128;
MobileParams.ContextSize = 1024;
MobileParams.NumGPULayers = 0;
MobileParams.NumThreads = 4;
MobileParams.SystemPrompt = TEXT("You are a helpful assistant. Keep responses brief.");
// Get defaults programmatically
FLLMInferenceParams DefaultParams = URuntimeLocalLLM::GetDefaultInferenceParams();
플랫폼 권장 사항
모바일 / VR (Android, iOS, Meta Quest)
- 컨텍스트 크기: 1024–2048
- GPU 레이어 수: 0 (CPU 전용) 장치에 GPU 컴퓨팅 지원이 확인된 경우가 아니면
- 최대 토큰: 반응형 상호작용을 위해 256 미만
- 스레드 수: 장치에 따라 2–4
데스크톱 (Windows, Mac, Linux)
- 컨텍스트 크기: 대부분의 대화에 2048–8192
- GPU 레이어 수: -1 (자동) 사용 가능한 경우 GPU 가속을 활용하려면
- 스레드 수: 0 (자동)
- 최대 토큰: 더 긴 응답을 위해 512–2048