Pular para o conteúdo principal

Parâmetros de inferência

A estrutura de Parâmetros de Inferência do LLM controla como o modelo carrega e gera texto. Você passa esses parâmetros ao carregar um modelo. Esta página descreve cada parâmetro e seu efeito.

Referência de Parâmetros

ParâmetroTypePadrãoAlcanceDescrição
Máximo de Tokensint325121–8192Número máximo de tokens a serem gerados em uma única resposta
Temperaturafloat0.70.0–2.0Controla a aleatoriedade. 0.0 = determinístico. Valores mais altos = saída mais criativa.
Top Pfloat0.90,0–1,0Amostragem por núcleo. Apenas tokens cuja probabilidade cumulativa exceda este valor são considerados.
Top Kint32400–200Limita a seleção aos K tokens mais prováveis. 0 = desativado.
Penalidade de Repetiçãofloat1.10.0–3.0Penaliza tokens que já aparecem na saída. 1.0 = sem penalidade
Camadas de GPUint32-1-1–200Camadas do modelo para descarregar na GPU. -1 = automático. 0 = apenas CPU.
Tamanho do Contextoint322048128–131072Janela de contexto máxima em tokens. Valores maiores usam mais memória.
Prompt do SistemaFString"Você é um assistente útil."Instrução do sistema que molda o comportamento do modelo
Sementeint32-1-1+Semente aleatória para saída reproduzível. -1 = aleatório
Número de Threadsint3200–128Threads da CPU para geração. 0 = automático

Uso

Os parâmetros de inferência aparecem como um pino de struct nos nós de carregamento e assíncronos. Desmembre a struct para definir valores individuais:

Inference Parameters in Blueprint

Para obter um conjunto padrão de parâmetros como ponto de partida, use Get Default Inference Params:

Get Default Inference Params

Recomendações de Plataforma

Dispositivo Móvel / RV (Android, iOS, Meta Quest)

  • Tamanho do Contexto: 1024–2048
  • Camadas de GPU: 0 (apenas CPU) a menos que o dispositivo tenha suporte confirmado para computação em GPU
  • Máximo de Tokens: Abaixo de 256 para interações responsivas
  • Número de Threads: 2–4 dependendo do dispositivo

Desktop (Windows, Mac, Linux)

  • Tamanho do Contexto: 2048–8192 para a maioria das conversas
  • Camadas de GPU: -1 (automático) para aproveitar a aceleração da GPU quando disponível
  • Número de Threads: 0 (automático)
  • Tokens Máximos: 512–2048 para respostas mais longas

Conversas Longas

Se sua aplicação mantém conversas ao longo de sessões longas (diálogo de NPCs, assistentes persistentes, roleplay), considere combinar o tamanho do contexto com sumarização automática em vez de apenas aumentar o Context Size. Um Context Size modesto de 2048–4096 com sumarização automática ativada mantém a latência e o uso de memória estáveis, enquanto janelas de contexto maiores tornam cada geração progressivamente mais lenta. Veja Sumarização Automática de Contexto.