Aperçu

Runtime Local LLM est un plugin qui exécute des grands modèles de langage entièrement sur l'appareil en utilisant llama.cpp, sans connexion Internet requise à l'exécution. Il prend en charge les fichiers de modèle GGUF et fournit une API Blueprint complète pour charger des modèles, envoyer des messages et recevoir des réponses jeton par jeton, le tout sur un thread d'arrière-plan avec des callbacks sur le thread principal.

Le plugin prend en charge Windows, Mac, Linux, Android (y compris Meta Quest et autres plateformes basées sur Android) et iOS.

Fonctionnalités clés

Inférence entièrement hors ligne : Aucun service cloud ni clé API à l'exécution
Prise en charge des modèles GGUF : Chargez n'importe quel modèle au format GGUF (Llama, Mistral, Phi, Gemma, Qwen, etc.)
llama.cpp à jour : Mis à jour régulièrement sur Fab pour suivre le rythme des versions de llama.cpp, de sorte que les derniers formats de modèle GGUF sont toujours pris en charge
Accélération GPU : Utilise Vulkan sous Windows et Linux, Metal sous Mac et iOS, et CPU + intrinsics sous Android et Meta Quest
Plusieurs méthodes de chargement de modèle :
- Chargement depuis un chemin de fichier local
- Chargement par nom de modèle (sélection déroulante dans Blueprints)
- Téléchargement depuis une URL et chargement automatique
- Téléchargement uniquement pour pré-cache les modèles
Diffusion en continu jeton par jeton : Recevez chaque jeton au fur et à mesure de sa génération pour un affichage en temps réel
Nœuds Blueprint asynchrones : Nœuds avec des délégués de sortie pour le chargement, l'envoi de messages et le téléchargement
Paramètres d'inférence configurables : Température, Top-P, Top-K, pénalité de répétition, déchargement des couches GPU, taille du contexte, amorce, nombre de threads, et invite système
Gestion du contexte de conversation : Maintenez des conversations à plusieurs tours avec prise en charge de la réinitialisation du contexte
Gestionnaire de modèles dans l'éditeur : Parcourez, téléchargez, importez, supprimez et testez les modèles directement dans les paramètres du projet
Empaquetage multiplateforme : Les modèles sont inclus avec votre projet via la mise en scène NonUFS

Fonctionnement

Gérer les modèles dans l'éditeur : Utilisez le panneau de paramètres du plugin pour parcourir un catalogue de modèles prédéfinis, les télécharger ou importer vos propres fichiers GGUF
Charger un modèle à l'exécution : Appelez l'une des fonctions de chargement (par fichier, par nom, par URL ou par métadonnées) avec vos paramètres d'inférence
Envoyer des messages : Passez un message utilisateur à l'instance LLM ; les jetons sont diffusés en continu via les délégués pendant que le modèle génère une réponse
Utiliser la réponse : Affichez les jetons dans une interface de chat, pilotez les dialogues des PNJ, générez du contenu dynamique ou alimentez d'autres systèmes

Toute l'inférence s'exécute sur un thread d'arrière-plan dédié. Les callbacks (génération de jetons, complétion, erreurs) sont déclenchées sur le thread principal, vous pouvez donc mettre à jour l'interface et l'état du jeu en toute sécurité à partir d'elles.

Stockage et empaquetage des modèles

Les modèles sont stockés sous forme de fichiers .gguf dans le répertoire Content/RuntimeLocalLLM/Models de votre projet. Le plugin configure automatiquement Additional Non-Asset Directories To Copy (DirectoriesToAlwaysStageAsNonUFS) afin que les fichiers de modèle soient inclus avec votre projet empaqueté et restent accessibles via les E/S fichier standard à l'exécution.

Chaque modèle dispose également d'un fichier .json sidecar qui stocke ses métadonnées (nom d'affichage, famille, variante, description, nombre de paramètres).

Modèles pris en charge

Le plugin fonctionne avec n'importe quel modèle au format GGUF. L'éditeur fournit un catalogue de modèles prédéfinis populaires pour un téléchargement en un clic, et vous pouvez importer n'importe quel fichier GGUF personnalisé. Les familles de modèles courantes incluent :

Llama (Meta) — 1B, 3B, 8B, et plus grands
Mistral / Mixtral — 7B et plus grands
Phi (Microsoft) — 2B, 3B, 4B
Gemma (Google) — 2B, 7B
Qwen (Alibaba) — 1,5B, 7B, et plus grands
TinyLlama — 1,1B
Et bien d'autres modèles de la communauté

Quantification

Les modèles sont disponibles en différents niveaux de quantification qui font un compromis entre qualité, taille et vitesse :

Quantification	Qualité	Taille	Vitesse
Q2_K	Inférieure	La plus petite	La plus rapide
Q4_K_M	Bonne	Moyenne	Rapide
Q5_K_M	Meilleure	Plus grande	Modérée
Q8_0	Élevée	Grande	Plus lente
F16 / F32	La plus élevée	La plus grande	La plus lente

Pour les appareils mobiles et de réalité virtuelle, les quantifications plus petites (Q2_K à Q4_K_M) avec des modèles compacts (paramètres 1B–3B) sont recommandées. Pour les ordinateurs de bureau, vous pouvez utiliser des modèles plus grands et des niveaux de quantification plus élevés en fonction de la RAM et des ressources CPU/GPU disponibles.

Ressources supplémentaires

Obtenez-le sur Fab
Site web du produit
Télécharger la démo (Windows)
Tutoriel vidéo
Assistance plugin & développement personnalisé : [email protected] (solutions adaptées pour les équipes et organisations)

Join our Discord

online · support

Fonctionnalités clés​

Fonctionnement​

Stockage et empaquetage des modèles​

Modèles pris en charge​

Quantification​

Ressources supplémentaires​