Visão Geral

Runtime Local LLM é um plugin que executa grandes modelos de linguagem inteiramente no dispositivo usando o llama.cpp, sem necessidade de conexão com a internet em tempo de execução. Ele oferece suporte a arquivos de modelo GGUF e disponibiliza uma API completa em Blueprint para carregar modelos, enviar mensagens e receber respostas token a token, tudo em uma thread em segundo plano com callbacks na thread do jogo.

O plugin oferece suporte a Windows, Mac, Linux, Android (incluindo Meta Quest e outras plataformas baseadas em Android) e iOS.

Principais Funcionalidades

Inferência completamente offline: Sem serviços de nuvem ou chaves de API em tempo de execução
Suporte a modelos GGUF: Carrega qualquer modelo no formato GGUF (Llama, Mistral, Phi, Gemma, Qwen, etc.)
llama.cpp atualizado: Atualizado regularmente no Fab para acompanhar os lançamentos do llama.cpp, garantindo que os formatos mais recentes de modelos GGUF sejam sempre suportados
Aceleração por GPU: Utiliza Vulkan no Windows e Linux, Metal no Mac e iOS, e CPU + intrínsecos no Android e Meta Quest
Múltiplos métodos de carregamento de modelo:
- Carregar a partir de um caminho de arquivo local
- Carregar pelo nome do modelo (seleção em menu suspenso nos Blueprints)
- Baixar de uma URL e carregar automaticamente
- Apenas baixar para pré-armazenamento em cache de modelos
Streaming token a token: Recebe cada token conforme ele é gerado para exibição em tempo real
Nós Blueprint assíncronos: Nós com delegates de saída para carregamento, envio de mensagens e download
Parâmetros de inferência configuráveis: Temperature, Top-P, Top-K, penalidade de repetição, descarregamento de camadas na GPU, tamanho de contexto, seed, número de threads e prompt do sistema
Gerenciamento de contexto de conversa: Mantém conversas de múltiplas interações com suporte para reinicialização de contexto
Gerenciador de modelos no editor: Navegue, baixe, importe, exclua e teste modelos diretamente nas configurações do projeto
Empacotamento multiplataforma: Os modelos são incluídos no seu projeto por meio do staging NonUFS

Como Funciona

Gerenciar modelos no editor: Use o painel de configurações do plugin para navegar por um catálogo de modelos pré-definidos, baixá-los ou importar seus próprios arquivos GGUF
Carregar um modelo em tempo de execução: Chame uma das funções de carregamento (por arquivo, por nome, por URL ou por metadados) com seus parâmetros de inferência
Enviar mensagens: Passe uma mensagem do usuário para a instância do LLM; os tokens são transmitidos de volta por meio de delegates conforme o modelo gera uma resposta
Usar a resposta: Exiba os tokens em uma interface de chat, controle diálogos de NPC, gere conteúdo dinâmico ou alimente outros sistemas

Toda a inferência é executada em uma thread dedicada em segundo plano. Os callbacks (geração de token, conclusão, erros) são disparados na thread do jogo, permitindo que você atualize com segurança a interface do usuário e o estado do jogo a partir deles.

Armazenamento e Empacotamento de Modelos

Os modelos são armazenados como arquivos .gguf no diretório Content/RuntimeLocalLLM/Models do seu projeto. O plugin configura automaticamente Additional Non-Asset Directories To Copy (DirectoriesToAlwaysStageAsNonUFS) para que os arquivos de modelo sejam incluídos no seu projeto empacotado e permaneçam acessíveis via E/S de arquivo padrão em tempo de execução.

Cada modelo também possui um arquivo auxiliar .json que armazena seus metadados (nome de exibição, família, variante, descrição, contagem de parâmetros).

Modelos Suportados

O plugin funciona com qualquer modelo no formato GGUF. O editor oferece um catálogo de modelos populares pré-definidos para download com um clique, e você pode importar qualquer arquivo GGUF personalizado. As famílias de modelos comuns incluem:

Llama (Meta) — 1B, 3B, 8B e superiores
Mistral / Mixtral — 7B e superiores
Phi (Microsoft) — 2B, 3B, 4B
Gemma (Google) — 2B, 7B
Qwen (Alibaba) — 1.5B, 7B e superiores
TinyLlama — 1.1B
E muitos outros modelos da comunidade

Quantização

Os modelos vêm em vários níveis de quantização que equilibram qualidade, tamanho e velocidade:

Quantização	Qualidade	Tamanho	Velocidade
Q2_K	Inferior	Menor	Mais rápido
Q4_K_M	Boa	Médio	Rápido
Q5_K_M	Melhor	Maior	Moderado
Q8_0	Alta	Grande	Mais lento
F16 / F32	Máxima	Maior	Mais lento

Para dispositivos móveis e VR, recomenda-se quantizações menores (Q2_K a Q4_K_M) com modelos compactos (1B–3B parâmetros). Para desktop, você pode usar modelos maiores e níveis de quantização mais altos, dependendo da RAM disponível e dos recursos de CPU/GPU.

Recursos Adicionais

Obtenha no Fab
Site do produto
Baixar Demo (Windows)
Tutorial em vídeo
Suporte ao Plugin & Desenvolvimento Personalizado: [email protected] (soluções sob medida para equipes e organizações)

Join our Discord

online · support

Principais Funcionalidades​

Como Funciona​

Armazenamento e Empacotamento de Modelos​

Modelos Suportados​

Quantização​

Recursos Adicionais​