Panoramica

Runtime Local LLM è un plugin che esegue modelli linguistici di grandi dimensioni interamente su dispositivo utilizzando llama.cpp, senza necessità di connessione a Internet in fase di esecuzione. Supporta file di modelli GGUF e fornisce un'API Blueprint completa per caricare modelli, inviare messaggi e ricevere risposte token per token, il tutto su un thread in background con callback sul thread di gioco.

Il plugin supporta Windows, Mac, Linux, Android (inclusi Meta Quest e altre piattaforme basate su Android) e iOS.

Caratteristiche Principali

Inferenza completamente offline: Nessun servizio cloud o chiave API in fase di esecuzione
Supporto modelli GGUF: Carica qualsiasi modello in formato GGUF (Llama, Mistral, Phi, Gemma, Qwen, ecc.)
llama.cpp aggiornato: Aggiornato regolarmente su Fab per tenere il passo con le release di llama.cpp, in modo che gli ultimi formati di modello GGUF siano sempre supportati
Accelerazione GPU: Utilizza Vulkan su Windows e Linux, Metal su Mac e iOS, e CPU + intrinseche su Android e Meta Quest
Metodi multipli di caricamento dei modelli:
- Carica da percorso file locale
- Carica per nome modello (selezione a discesa nei Blueprint)
- Scarica da URL e carica automaticamente
- Solo download per pre-caching dei modelli
Streaming token per token: Ricevi ogni token man mano che viene generato per la visualizzazione in tempo reale
Nodi Blueprint asincroni: Nodi con delegati di output per caricamento, invio messaggi e download
Parametri di inferenza configurabili: Temperatura, Top-P, Top-K, penalità di ripetizione, offloading dei layer sulla GPU, dimensione del contesto, seed, numero di thread e prompt di sistema
Gestione del contesto di conversazione: Mantieni conversazioni multi-turno con supporto per il reset del contesto
Gestore modelli nell'editor: Sfoglia, scarica, importa, elimina e testa i modelli direttamente nelle impostazioni del progetto
Pacchettizzazione multipiattaforma: I modelli vengono inclusi nel progetto tramite staging NonUFS

Come Funziona

Gestisci i modelli nell'editor: Utilizza il pannello delle impostazioni del plugin per sfogliare un catalogo di modelli predefiniti, scaricarli o importare i tuoi file GGUF
Carica un modello in fase di esecuzione: Chiama una delle funzioni di caricamento (per file, per nome, per URL o per metadati) con i tuoi parametri di inferenza
Invia messaggi: Passa un messaggio utente all'istanza LLM; i token vengono restituiti in streaming tramite delegati mentre il modello genera una risposta
Utilizza la risposta: Visualizza i token in un'interfaccia chat, guida i dialoghi degli NPC, genera contenuti dinamici o alimenta altri sistemi

Tutta l'inferenza viene eseguita su un thread in background dedicato. I callback (generazione token, completamento, errori) vengono attivati sul thread di gioco, consentendo di aggiornare in sicurezza l'UI e lo stato del gioco da essi.

Archiviazione e Pacchettizzazione dei Modelli

I modelli sono archiviati come file .gguf nella directory Content/RuntimeLocalLLM/Models del progetto. Il plugin configura automaticamente le Additional Non-Asset Directories To Copy (DirectoriesToAlwaysStageAsNonUFS) in modo che i file dei modelli vengano inclusi nel progetto pacchettizzato e rimangano accessibili tramite I/O file standard in fase di esecuzione.

Ogni modello ha anche un file sidecar .json che memorizza i suoi metadati (nome visualizzato, famiglia, variante, descrizione, numero di parametri).

Modelli Supportati

Il plugin funziona con qualsiasi modello in formato GGUF. L'editor fornisce un catalogo di modelli predefiniti popolari per il download con un clic, ed è possibile importare qualsiasi file GGUF personalizzato. Le famiglie di modelli più comuni includono:

Llama (Meta) — 1B, 3B, 8B e più grandi
Mistral / Mixtral — 7B e più grandi
Phi (Microsoft) — 2B, 3B, 4B
Gemma (Google) — 2B, 7B
Qwen (Alibaba) — 1.5B, 7B e più grandi
TinyLlama — 1.1B
E molti altri modelli della community

Quantizzazione

I modelli sono disponibili in vari livelli di quantizzazione che bilanciano qualità, dimensione e velocità:

Quantizzazione	Qualità	Dimensione	Velocità
Q2_K	Inferiore	Più piccola	Più veloce
Q4_K_M	Buona	Media	Veloce
Q5_K_M	Migliore	Più grande	Moderata
Q8_0	Alta	Grande	Più lenta
F16 / F32	Massima	Più grande	Più lenta

Per dispositivi mobili e VR, si consigliano quantizzazioni più piccole (da Q2_K a Q4_K_M) con modelli compatti (1–3 miliardi di parametri). Per desktop, è possibile utilizzare modelli più grandi e livelli di quantizzazione più elevati in base alla RAM disponibile e alle risorse CPU/GPU.

Risorse Aggiuntive

Ottienilo su Fab
Sito web del prodotto
Scarica la Demo (Windows)
Video tutorial
Supporto Plugin & Sviluppo Personalizzato: [email protected] (soluzioni su misura per team e organizzazioni)

Join our Discord

online · support

Caratteristiche Principali​

Come Funziona​

Archiviazione e Pacchettizzazione dei Modelli​

Modelli Supportati​

Quantizzazione​

Risorse Aggiuntive​