Pular para o conteúdo principal

Parâmetros de Inferência

A estrutura de Parâmetros de Inferência do LLM controla como o modelo carrega e gera texto. Você passa esses parâmetros ao carregar um modelo. Esta página descreve cada parâmetro e seu efeito.

Referência de Parâmetros

ParâmetroTipoPadrãoFaixaDescrição
Máximo de Tokensint325121–8192Número máximo de tokens a gerar em uma única resposta
Temperaturafloat0.70.0–2.0Controla a aleatoriedade. 0,0 = determinístico. Valores mais altos = saída mais criativa
Top Pfloat0.90.0–1.0Amostragem de núcleo. Apenas tokens cuja probabilidade cumulativa excede este valor são considerados
Top Kint32400–200Limita a seleção aos K tokens mais prováveis. 0 = desabilitado
Penalidade de Repetiçãofloat1.10.0–3.0Penaliza tokens que já aparecem na saída. 1,0 = sem penalidade
Camadas da GPUint32-1-1–200Camadas do modelo a serem descarregadas na GPU. -1 = automático. 0 = somente CPU
Tamanho do Contextoint322048128–131072Tamanho máximo da janela de contexto em tokens. Valores maiores usam mais memória
Prompt do SistemaFString"You are a helpful assistant."Instrução do sistema que molda o comportamento do modelo
Sementeint32-1-1+Semente aleatória para saída reproduzível. -1 = aleatória
Número de Threadsint3200–128Threads da CPU para geração. 0 = automático

Uso

Os parâmetros de inferência aparecem como um pino struct nos nós de carregamento e assíncronos. Quebre o struct para definir valores individuais:

Parâmetros de Inferência no Blueprint

Para obter um conjunto padrão de parâmetros como ponto de partida, use Get Default Inference Params:

Get Default Inference Params

Recomendações de Plataforma

Móvel / VR (Android, iOS, Meta Quest)

  • Tamanho do Contexto: 1024–2048
  • Camadas da GPU: 0 (somente CPU), a menos que o dispositivo tenha suporte confirmado para computação em GPU
  • Tokens Máximos: Abaixo de 256 para interações responsivas
  • Número de Threads: 2–4, dependendo do dispositivo

Desktop (Windows, Mac, Linux)

  • Tamanho do Contexto: 2048–8192 para a maioria das conversas
  • Camadas da GPU: -1 (automático) para aproveitar a aceleração da GPU quando disponível
  • Número de Threads: 0 (automático)
  • Tokens Máximos: 512–2048 para respostas mais longas