Panoramica

Runtime Local LLM è un plugin che esegue modelli linguistici di grandi dimensioni interamente su dispositivo utilizzando llama.cpp, senza necessità di connessione a Internet in fase di esecuzione. Supporta file di modelli GGUF e fornisce un'API Blueprint completa per caricare modelli, inviare messaggi e ricevere risposte token per token, il tutto su un thread in background con callback sul thread di gioco.
Il plugin supporta Windows, Mac, Linux, Android (inclusi Meta Quest e altre piattaforme basate su Android) e iOS.
Caratteristiche Principali
- Inferenza completamente offline: Nessun servizio cloud o chiave API in fase di esecuzione
- Supporto modelli GGUF: Carica qualsiasi modello in formato GGUF (Llama, Mistral, Phi, Gemma, Qwen, ecc.)
- llama.cpp aggiornato: Aggiornato regolarmente su Fab per tenere il passo con le release di llama.cpp, in modo che gli ultimi formati di modello GGUF siano sempre supportati
- Accelerazione GPU: Utilizza Vulkan su Windows e Linux, Metal su Mac e iOS, e CPU + intrinseche su Android e Meta Quest
- Metodi multipli di caricamento dei modelli:
- Carica da percorso file locale
- Carica per nome modello (selezione a discesa nei Blueprint)
- Scarica da URL e carica automaticamente
- Solo download per pre-caching dei modelli
- Streaming token per token: Ricevi ogni token man mano che viene generato per la visualizzazione in tempo reale
- Nodi Blueprint asincroni: Nodi con delegati di output per caricamento, invio messaggi e download
- Parametri di inferenza configurabili: Temperatura, Top-P, Top-K, penalità di ripetizione, offloading dei layer sulla GPU, dimensione del contesto, seed, numero di thread e prompt di sistema
- Gestione del contesto di conversazione: Mantieni conversazioni multi-turno con supporto per il reset del contesto
- Gestore modelli nell'editor: Sfoglia, scarica, importa, elimina e testa i modelli direttamente nelle impostazioni del progetto
- Pacchettizzazione multipiattaforma: I modelli vengono inclusi nel progetto tramite staging NonUFS
Come Funziona
- Gestisci i modelli nell'editor: Utilizza il pannello delle impostazioni del plugin per sfogliare un catalogo di modelli predefiniti, scaricarli o importare i tuoi file GGUF
- Carica un modello in fase di esecuzione: Chiama una delle funzioni di caricamento (per file, per nome, per URL o per metadati) con i tuoi parametri di inferenza
- Invia messaggi: Passa un messaggio utente all'istanza LLM; i token vengono restituiti in streaming tramite delegati mentre il modello genera una risposta
- Utilizza la risposta: Visualizza i token in un'interfaccia chat, guida i dialoghi degli NPC, genera contenuti dinamici o alimenta altri sistemi
Tutta l'inferenza viene eseguita su un thread in background dedicato. I callback (generazione token, completamento, errori) vengono attivati sul thread di gioco, consentendo di aggiornare in sicurezza l'UI e lo stato del gioco da essi.
Archiviazione e Pacchettizzazione dei Modelli
I modelli sono archiviati come file .gguf nella directory Content/RuntimeLocalLLM/Models del progetto. Il plugin configura automaticamente le Additional Non-Asset Directories To Copy (DirectoriesToAlwaysStageAsNonUFS) in modo che i file dei modelli vengano inclusi nel progetto pacchettizzato e rimangano accessibili tramite I/O file standard in fase di esecuzione.
Ogni modello ha anche un file sidecar .json che memorizza i suoi metadati (nome visualizzato, famiglia, variante, descrizione, numero di parametri).
Modelli Supportati
Il plugin funziona con qualsiasi modello in formato GGUF. L'editor fornisce un catalogo di modelli predefiniti popolari per il download con un clic, ed è possibile importare qualsiasi file GGUF personalizzato. Le famiglie di modelli più comuni includono:
- Llama (Meta) — 1B, 3B, 8B e più grandi
- Mistral / Mixtral — 7B e più grandi
- Phi (Microsoft) — 2B, 3B, 4B
- Gemma (Google) — 2B, 7B
- Qwen (Alibaba) — 1.5B, 7B e più grandi
- TinyLlama — 1.1B
- E molti altri modelli della community
Quantizzazione
I modelli sono disponibili in vari livelli di quantizzazione che bilanciano qualità, dimensione e velocità:
| Quantizzazione | Qualità | Dimensione | Velocità |
|---|---|---|---|
| Q2_K | Inferiore | Più piccola | Più veloce |
| Q4_K_M | Buona | Media | Veloce |
| Q5_K_M | Migliore | Più grande | Moderata |
| Q8_0 | Alta | Grande | Più lenta |
| F16 / F32 | Massima | Più grande | Più lenta |
Per dispositivi mobili e VR, si consigliano quantizzazioni più piccole (da Q2_K a Q4_K_M) con modelli compatti (1–3 miliardi di parametri). Per desktop, è possibile utilizzare modelli più grandi e livelli di quantizzazione più elevati in base alla RAM disponibile e alle risorse CPU/GPU.
Risorse Aggiuntive
- Ottienilo su Fab
- Sito web del prodotto
- Scarica la Demo (Windows)
- Video tutorial
- Supporto Plugin & Sviluppo Personalizzato: [email protected] (soluzioni su misura per team e organizzazioni)