본문으로 건너뛰기

추론 매개변수

LLM 추론 매개변수 구조체는 모델 로딩 및 텍스트 생성 방식을 제어합니다. 모델을 로딩할 때 이 매개변수들을 전달합니다. 이 페이지에서는 각 매개변수와 그 효과에 대해 설명합니다.

매개변수 레퍼런스

매개변수타입기본값범위설명
최대 토큰int325121–8192단일 응답에서 생성할 최대 토큰 수
온도float0.70.0–2.0무작위성을 제어합니다. 0.0 = 결정적. 값이 높을수록 더 창의적인 출력
Top Pfloat0.90.0–1.0Nucleus 샘플링. 누적 확률이 이 값을 초과하는 토큰만 고려됩니다
Top Kint32400–200가장 확률이 높은 상위 K개의 토큰으로 선택을 제한합니다. 0 = 비활성화
반복 패널티float1.10.0–3.0출력에 이미 나타난 토큰에 패널티를 부여합니다. 1.0 = 패널티 없음
GPU 레이어 수int32-1-1–200GPU로 오프로드할 모델 레이어 수. -1 = 자동. 0 = CPU 전용
컨텍스트 크기int322048128–131072토큰 단위 최대 컨텍스트 윈도우. 값이 클수록 더 많은 메모리 사용
시스템 프롬프트FString"You are a helpful assistant."모델의 동작을 형성하는 시스템 명령
시드int32-1-1+재현 가능한 출력을 위한 무작위 시드. -1 = 무작위
스레드 수int3200–128생성용 CPU 스레드 수. 0 = 자동

사용법

추론 매개변수는 로드 및 비동기 노드에서 구조체 핀으로 나타납니다. 구조체를 분해하여 개별 값을 설정하세요:

Blueprint에서의 추론 매개변수

기본 매개변수 세트를 시작점으로 가져오려면 기본 추론 매개변수 가져오기를 사용하세요:

기본 추론 매개변수 가져오기

플랫폼 권장 사항

모바일 / VR (Android, iOS, Meta Quest)

  • 컨텍스트 크기: 1024–2048
  • GPU 레이어 수: 0 (CPU 전용) 장치에 GPU 컴퓨팅 지원이 확인된 경우가 아니면
  • 최대 토큰: 반응형 상호작용을 위해 256 미만
  • 스레드 수: 장치에 따라 2–4

데스크톱 (Windows, Mac, Linux)

  • 컨텍스트 크기: 대부분의 대화에 2048–8192
  • GPU 레이어 수: -1 (자동) 사용 가능한 경우 GPU 가속을 활용하려면
  • 스레드 수: 0 (자동)
  • 최대 토큰: 더 긴 응답을 위해 512–2048