Aperçu

Runtime Local LLM est un plugin qui exécute des grands modèles de langage entièrement sur l'appareil en utilisant llama.cpp, sans connexion Internet requise à l'exécution. Il prend en charge les fichiers de modèle GGUF et fournit une API Blueprint complète pour charger des modèles, envoyer des messages et recevoir des réponses jeton par jeton, le tout sur un thread d'arrière-plan avec des callbacks sur le thread principal.
Le plugin prend en charge Windows, Mac, Linux, Android (y compris Meta Quest et autres plateformes basées sur Android) et iOS.
Fonctionnalités clés
- Inférence entièrement hors ligne : Aucun service cloud ni clé API à l'exécution
- Prise en charge des modèles GGUF : Chargez n'importe quel modèle au format GGUF (Llama, Mistral, Phi, Gemma, Qwen, etc.)
- llama.cpp à jour : Mis à jour régulièrement sur Fab pour suivre le rythme des versions de llama.cpp, de sorte que les derniers formats de modèle GGUF sont toujours pris en charge
- Accélération GPU : Utilise Vulkan sous Windows et Linux, Metal sous Mac et iOS, et CPU + intrinsics sous Android et Meta Quest
- Plusieurs méthodes de chargement de modèle :
- Chargement depuis un chemin de fichier local
- Chargement par nom de modèle (sélection déroulante dans Blueprints)
- Téléchargement depuis une URL et chargement automatique
- Téléchargement uniquement pour pré-cache les modèles
- Diffusion en continu jeton par jeton : Recevez chaque jeton au fur et à mesure de sa génération pour un affichage en temps réel
- Nœuds Blueprint asynchrones : Nœuds avec des délégués de sortie pour le chargement, l'envoi de messages et le téléchargement
- Paramètres d'inférence configurables : Température, Top-P, Top-K, pénalité de répétition, déchargement des couches GPU, taille du contexte, amorce, nombre de threads, et invite système
- Gestion du contexte de conversation : Maintenez des conversations à plusieurs tours avec prise en charge de la réinitialisation du contexte
- Gestionnaire de modèles dans l'éditeur : Parcourez, téléchargez, importez, supprimez et testez les modèles directement dans les paramètres du projet
- Empaquetage multiplateforme : Les modèles sont inclus avec votre projet via la mise en scène NonUFS
Fonctionnement
- Gérer les modèles dans l'éditeur : Utilisez le panneau de paramètres du plugin pour parcourir un catalogue de modèles prédéfinis, les télécharger ou importer vos propres fichiers GGUF
- Charger un modèle à l'exécution : Appelez l'une des fonctions de chargement (par fichier, par nom, par URL ou par métadonnées) avec vos paramètres d'inférence
- Envoyer des messages : Passez un message utilisateur à l'instance LLM ; les jetons sont diffusés en continu via les délégués pendant que le modèle génère une réponse
- Utiliser la réponse : Affichez les jetons dans une interface de chat, pilotez les dialogues des PNJ, générez du contenu dynamique ou alimentez d'autres systèmes
Toute l'inférence s'exécute sur un thread d'arrière-plan dédié. Les callbacks (génération de jetons, complétion, erreurs) sont déclenchées sur le thread principal, vous pouvez donc mettre à jour l'interface et l'état du jeu en toute sécurité à partir d'elles.
Stockage et empaquetage des modèles
Les modèles sont stockés sous forme de fichiers .gguf dans le répertoire Content/RuntimeLocalLLM/Models de votre projet. Le plugin configure automatiquement Additional Non-Asset Directories To Copy (DirectoriesToAlwaysStageAsNonUFS) afin que les fichiers de modèle soient inclus avec votre projet empaqueté et restent accessibles via les E/S fichier standard à l'exécution.
Chaque modèle dispose également d'un fichier .json sidecar qui stocke ses métadonnées (nom d'affichage, famille, variante, description, nombre de paramètres).
Modèles pris en charge
Le plugin fonctionne avec n'importe quel modèle au format GGUF. L'éditeur fournit un catalogue de modèles prédéfinis populaires pour un téléchargement en un clic, et vous pouvez importer n'importe quel fichier GGUF personnalisé. Les familles de modèles courantes incluent :
- Llama (Meta) — 1B, 3B, 8B, et plus grands
- Mistral / Mixtral — 7B et plus grands
- Phi (Microsoft) — 2B, 3B, 4B
- Gemma (Google) — 2B, 7B
- Qwen (Alibaba) — 1,5B, 7B, et plus grands
- TinyLlama — 1,1B
- Et bien d'autres modèles de la communauté
Quantification
Les modèles sont disponibles en différents niveaux de quantification qui font un compromis entre qualité, taille et vitesse :
| Quantification | Qualité | Taille | Vitesse |
|---|---|---|---|
| Q2_K | Inférieure | La plus petite | La plus rapide |
| Q4_K_M | Bonne | Moyenne | Rapide |
| Q5_K_M | Meilleure | Plus grande | Modérée |
| Q8_0 | Élevée | Grande | Plus lente |
| F16 / F32 | La plus élevée | La plus grande | La plus lente |
Pour les appareils mobiles et de réalité virtuelle, les quantifications plus petites (Q2_K à Q4_K_M) avec des modèles compacts (paramètres 1B–3B) sont recommandées. Pour les ordinateurs de bureau, vous pouvez utiliser des modèles plus grands et des niveaux de quantification plus élevés en fonction de la RAM et des ressources CPU/GPU disponibles.
Ressources supplémentaires
- Obtenez-le sur Fab
- Site web du produit
- Télécharger la démo (Windows)
- Tutoriel vidéo
- Assistance plugin & développement personnalisé : [email protected] (solutions adaptées pour les équipes et organisations)