Visão Geral

Runtime Local LLM é um plugin que executa modelos de linguagem grandes inteiramente no dispositivo usando llama.cpp, sem necessidade de conexão com a internet em tempo de execução. Ele suporta arquivos de modelo GGUF e fornece uma API Blueprint completa para carregar modelos, enviar mensagens e receber respostas token por token, tudo em uma thread em segundo plano com callbacks na thread do jogo.
O plugin é compatível com Windows, Mac, Linux, Android (incluindo Meta Quest e outras plataformas baseadas em Android) e iOS.
Recursos Principais
- Inferência offline completa: Nenhum serviço em nuvem ou chave de API em tempo de execução
- Suporte a modelos GGUF: Carregue qualquer modelo no formato GGUF (Llama, Mistral, Phi, Gemma, Qwen, etc.)
- llama.cpp atualizado: Atualizado regularmente no Fab para acompanhar os lançamentos do llama.cpp, garantindo que os formatos de modelo GGUF mais recentes sejam sempre suportados
- Aceleração por GPU: Usa Vulkan no Windows e Linux, Metal no Mac e iOS, e CPU + intrínsecos no Android e Meta Quest
- Múltiplos métodos de carregamento de modelos
- Carregar de um caminho de arquivo local
- Carregar pelo nome do modelo (seleção em lista suspensa nos Blueprints)
- Baixar de uma URL e carregar automaticamente
- Apenas baixar para pré-cache de modelos
- Streaming token por token: Receba cada token conforme ele é gerado para exibição em tempo real
- Nós Blueprint assíncronos: Nós com delegados de saída para carregamento, envio de mensagens e download
- Parâmetros de inferência configuráveis: Temperatura, Top-P, Top-K, penalidade de repetição, descarregamento de camadas da GPU, tamanho do contexto, semente, número de threads e prompt do sistema
- Gerenciamento de conversas: Conversas de múltiplas interações com reinicialização de contexto, salvar/carregar em disco, instantâneos em memória e sumarização automática para chats longos
- Gerenciador de modelos do editor: Navegue, baixe, importe, exclua e teste modelos diretamente nas configurações do projeto
- Empacotamento multiplataforma: Modelos acompanham seu projeto via preparação NonUFS
Como Funciona
- Gerenciar modelos no editor: Use o painel de configurações do plugin para navegar por um catálogo de modelos pré-definidos, baixá-los ou importar seus próprios arquivos GGUF
- Carregar um modelo em tempo de execução: Chame uma das funções de carregamento (por arquivo, por nome, por URL ou por metadados) com seus parâmetros de inferência
- Enviar mensagens: Passe uma mensagem do usuário para a instância do LLM; os tokens são transmitidos de volta por meio de delegates enquanto o modelo gera uma resposta
- Usar a resposta: Exiba tokens em uma interface de chat, conduza diálogos de NPCs, gere conteúdo dinâmico ou alimente outros sistemas
Toda inferência é executada em uma thread de fundo dedicada. Os callbacks (geração de tokens, conclusão, erros) são acionados na thread do jogo, permitindo que você atualize com segurança a interface e o estado do jogo a partir deles.
Casos de Uso Comuns
- Chatbots e assistentes no jogo: Perguntas e respostas, sistemas de ajuda, tutoriais dinâmicos
- Diálogo de NPCs: NPCs conversacionais com memória persistente por personagem usando instantâneos de conversa
- Sistemas de narrativa e roleplay de longa duração: A sumarização automática mantém conversas de várias horas dentro dos limites de contexto sem perder fatos importantes
- Conteúdo procedural: Gere descrições de missões, lore de itens, árvores de diálogo em tempo real
- Aplicações offline-first: Qualquer coisa que precise de capacidades de LLM sem conexão de rede
Armazenamento e Empacotamento de Modelos
Os modelos são armazenados como arquivos .gguf no diretório Content/RuntimeLocalLLM/Models do seu projeto. O plugin configura automaticamente os Diretórios Adicionais Não Relacionados a Assets para Copiar (DirectoriesToAlwaysStageAsNonUFS) para que os arquivos de modelo sejam enviados junto com seu projeto empacotado e permaneçam acessíveis via E/S de arquivo padrão em tempo de execução.
Cada modelo também possui um arquivo auxiliar .json que armazena seus metadados (nome de exibição, família, variante, descrição, contagem de parâmetros).
Modelos Suportados
O plugin funciona com qualquer modelo no formato GGUF. O editor fornece um catálogo de modelos populares pré-definidos para download com um clique, e você pode importar qualquer arquivo GGUF personalizado. Famílias de modelos comuns incluem:
- Llama (Meta) — 1B, 3B, 8B e maiores
- Mistral / Mixtral — 7B e maiores
- Phi (Microsoft) — 2B, 3B, 4B
- Gemma (Google) — 2B, 7B
- Qwen (Alibaba) — 1.5B, 7B e maiores
- TinyLlama — 1.1B
- E muitos outros modelos da comunidade
Quantização
Os modelos vêm em vários níveis de quantização que equilibram qualidade com tamanho e velocidade:
| Quantização | Qualidade | Size | Velocidade |
|---|---|---|---|
| Q2_K | Inferior | Menor | O mais rápido |
| Q4_K_M | Good | Médio | Fast |
| Q5_K_M | Melhor | Maior | Moderado |
| Q8_0 | High | Grande | Mais lento |
| F16 / F32 | Melhor | Maior | Mais lento |
Para dispositivos móveis e VR, recomenda-se o uso de quantizações menores (Q2_K a Q4_K_M) com modelos compactos (1B–3B parâmetros). Para desktop, você pode utilizar modelos maiores e níveis de quantização mais altos, dependendo da RAM disponível e dos recursos de CPU/GPU.
Recursos Adicionais
- Get it on Fab
- Site do produto
- Baixar demonstração (Windows)
- Tutorial em vídeo
- Suporte ao plugin e desenvolvimento personalizado: [email protected] (soluções sob medida para equipes e organizações)