Pular para o conteúdo principal

Visão Geral

Runtime Local LLM Documentation

Runtime Local LLM é um plugin que executa modelos de linguagem grandes inteiramente no dispositivo usando llama.cpp, sem necessidade de conexão com a internet em tempo de execução. Ele suporta arquivos de modelo GGUF e fornece uma API Blueprint completa para carregar modelos, enviar mensagens e receber respostas token por token, tudo em uma thread em segundo plano com callbacks na thread do jogo.

O plugin é compatível com Windows, Mac, Linux, Android (incluindo Meta Quest e outras plataformas baseadas em Android) e iOS.

Recursos Principais

  • Inferência offline completa: Nenhum serviço em nuvem ou chave de API em tempo de execução
  • Suporte a modelos GGUF: Carregue qualquer modelo no formato GGUF (Llama, Mistral, Phi, Gemma, Qwen, etc.)
  • llama.cpp atualizado: Atualizado regularmente no Fab para acompanhar os lançamentos do llama.cpp, garantindo que os formatos de modelo GGUF mais recentes sejam sempre suportados
  • Aceleração por GPU: Usa Vulkan no Windows e Linux, Metal no Mac e iOS, e CPU + intrínsecos no Android e Meta Quest
  • Múltiplos métodos de carregamento de modelos
    • Carregar de um caminho de arquivo local
    • Carregar pelo nome do modelo (seleção em lista suspensa nos Blueprints)
    • Baixar de uma URL e carregar automaticamente
    • Apenas baixar para pré-cache de modelos
  • Streaming token por token: Receba cada token conforme ele é gerado para exibição em tempo real
  • Nós Blueprint assíncronos: Nós com delegados de saída para carregamento, envio de mensagens e download
  • Parâmetros de inferência configuráveis: Temperatura, Top-P, Top-K, penalidade de repetição, descarregamento de camadas da GPU, tamanho do contexto, semente, número de threads e prompt do sistema
  • Gerenciamento de conversas: Conversas de múltiplas interações com reinicialização de contexto, salvar/carregar em disco, instantâneos em memória e sumarização automática para chats longos
  • Gerenciador de modelos do editor: Navegue, baixe, importe, exclua e teste modelos diretamente nas configurações do projeto
  • Empacotamento multiplataforma: Modelos acompanham seu projeto via preparação NonUFS

Como Funciona

  1. Gerenciar modelos no editor: Use o painel de configurações do plugin para navegar por um catálogo de modelos pré-definidos, baixá-los ou importar seus próprios arquivos GGUF
  2. Carregar um modelo em tempo de execução: Chame uma das funções de carregamento (por arquivo, por nome, por URL ou por metadados) com seus parâmetros de inferência
  3. Enviar mensagens: Passe uma mensagem do usuário para a instância do LLM; os tokens são transmitidos de volta por meio de delegates enquanto o modelo gera uma resposta
  4. Usar a resposta: Exiba tokens em uma interface de chat, conduza diálogos de NPCs, gere conteúdo dinâmico ou alimente outros sistemas

Toda inferência é executada em uma thread de fundo dedicada. Os callbacks (geração de tokens, conclusão, erros) são acionados na thread do jogo, permitindo que você atualize com segurança a interface e o estado do jogo a partir deles.

Casos de Uso Comuns

  • Chatbots e assistentes no jogo: Perguntas e respostas, sistemas de ajuda, tutoriais dinâmicos
  • Diálogo de NPCs: NPCs conversacionais com memória persistente por personagem usando instantâneos de conversa
  • Sistemas de narrativa e roleplay de longa duração: A sumarização automática mantém conversas de várias horas dentro dos limites de contexto sem perder fatos importantes
  • Conteúdo procedural: Gere descrições de missões, lore de itens, árvores de diálogo em tempo real
  • Aplicações offline-first: Qualquer coisa que precise de capacidades de LLM sem conexão de rede

Armazenamento e Empacotamento de Modelos

Os modelos são armazenados como arquivos .gguf no diretório Content/RuntimeLocalLLM/Models do seu projeto. O plugin configura automaticamente os Diretórios Adicionais Não Relacionados a Assets para Copiar (DirectoriesToAlwaysStageAsNonUFS) para que os arquivos de modelo sejam enviados junto com seu projeto empacotado e permaneçam acessíveis via E/S de arquivo padrão em tempo de execução.

Cada modelo também possui um arquivo auxiliar .json que armazena seus metadados (nome de exibição, família, variante, descrição, contagem de parâmetros).

Modelos Suportados

O plugin funciona com qualquer modelo no formato GGUF. O editor fornece um catálogo de modelos populares pré-definidos para download com um clique, e você pode importar qualquer arquivo GGUF personalizado. Famílias de modelos comuns incluem:

  • Llama (Meta) — 1B, 3B, 8B e maiores
  • Mistral / Mixtral — 7B e maiores
  • Phi (Microsoft) — 2B, 3B, 4B
  • Gemma (Google) — 2B, 7B
  • Qwen (Alibaba) — 1.5B, 7B e maiores
  • TinyLlama — 1.1B
  • E muitos outros modelos da comunidade

Quantização

Os modelos vêm em vários níveis de quantização que equilibram qualidade com tamanho e velocidade:

QuantizaçãoQualidadeSizeVelocidade
Q2_KInferiorMenorO mais rápido
Q4_K_MGoodMédioFast
Q5_K_MMelhorMaiorModerado
Q8_0HighGrandeMais lento
F16 / F32MelhorMaiorMais lento

Para dispositivos móveis e VR, recomenda-se o uso de quantizações menores (Q2_K a Q4_K_M) com modelos compactos (1B–3B parâmetros). Para desktop, você pode utilizar modelos maiores e níveis de quantização mais altos, dependendo da RAM disponível e dos recursos de CPU/GPU.

Recursos Adicionais

Join our Discord
online · support