Parâmetros de Inferência

A estrutura de Parâmetros de Inferência do LLM controla como o modelo carrega e gera texto. Você passa esses parâmetros ao carregar um modelo. Esta página descreve cada parâmetro e seu efeito.

Referência de Parâmetros

Parâmetro	Tipo	Padrão	Faixa	Descrição
Máximo de Tokens	int32	512	1–8192	Número máximo de tokens a gerar em uma única resposta
Temperatura	float	0.7	0.0–2.0	Controla a aleatoriedade. 0,0 = determinístico. Valores mais altos = saída mais criativa
Top P	float	0.9	0.0–1.0	Amostragem de núcleo. Apenas tokens cuja probabilidade cumulativa excede este valor são considerados
Top K	int32	40	0–200	Limita a seleção aos K tokens mais prováveis. 0 = desabilitado
Penalidade de Repetição	float	1.1	0.0–3.0	Penaliza tokens que já aparecem na saída. 1,0 = sem penalidade
Camadas da GPU	int32	-1	-1–200	Camadas do modelo a serem descarregadas na GPU. -1 = automático. 0 = somente CPU
Tamanho do Contexto	int32	2048	128–131072	Tamanho máximo da janela de contexto em tokens. Valores maiores usam mais memória
Prompt do Sistema	FString	"You are a helpful assistant."	—	Instrução do sistema que molda o comportamento do modelo
Semente	int32	-1	-1+	Semente aleatória para saída reproduzível. -1 = aleatória
Número de Threads	int32	0	0–128	Threads da CPU para geração. 0 = automático

Uso

Blueprint
C++

Os parâmetros de inferência aparecem como um pino struct nos nós de carregamento e assíncronos. Quebre o struct para definir valores individuais:

Parâmetros de Inferência no Blueprint

Para obter um conjunto padrão de parâmetros como ponto de partida, use Get Default Inference Params:

Get Default Inference Params

    // Creative writing
    FLLMInferenceParams CreativeParams;
    CreativeParams.MaxTokens = 1024;
    CreativeParams.Temperature = 1.2f;
    CreativeParams.TopP = 0.95f;
    CreativeParams.TopK = 80;
    CreativeParams.RepeatPenalty = 1.2f;
    CreativeParams.SystemPrompt = TEXT("You are a creative storyteller.");

    // Factual / deterministic
    FLLMInferenceParams FactualParams;
    FactualParams.MaxTokens = 256;
    FactualParams.Temperature = 0.1f;
    FactualParams.TopP = 0.5f;
    FactualParams.TopK = 10;
    FactualParams.SystemPrompt = TEXT("Answer questions concisely and accurately.");

    // Mobile-optimized
    FLLMInferenceParams MobileParams;
    MobileParams.MaxTokens = 128;
    MobileParams.ContextSize = 1024;
    MobileParams.NumGPULayers = 0;
    MobileParams.NumThreads = 4;
    MobileParams.SystemPrompt = TEXT("You are a helpful assistant. Keep responses brief.");

    // Get defaults programmatically
    FLLMInferenceParams DefaultParams = URuntimeLocalLLM::GetDefaultInferenceParams();

Recomendações de Plataforma

Móvel / VR (Android, iOS, Meta Quest)

Tamanho do Contexto: 1024–2048
Camadas da GPU: 0 (somente CPU), a menos que o dispositivo tenha suporte confirmado para computação em GPU
Tokens Máximos: Abaixo de 256 para interações responsivas
Número de Threads: 2–4, dependendo do dispositivo

Desktop (Windows, Mac, Linux)

Tamanho do Contexto: 2048–8192 para a maioria das conversas
Camadas da GPU: -1 (automático) para aproveitar a aceleração da GPU quando disponível
Número de Threads: 0 (automático)
Tokens Máximos: 512–2048 para respostas mais longas

Referência de Parâmetros​

Uso​

Recomendações de Plataforma​

Móvel / VR (Android, iOS, Meta Quest)​

Desktop (Windows, Mac, Linux)​

Referência de Parâmetros

Uso

Recomendações de Plataforma

Móvel / VR (Android, iOS, Meta Quest)

Desktop (Windows, Mac, Linux)