Übersicht

Runtime Local LLM ist ein Plugin, das große Sprachmodelle vollständig auf dem Gerät ausführt, und zwar mit llama.cpp, ohne dass zur Laufzeit eine Internetverbindung erforderlich ist. Es unterstützt GGUF-Modelldateien und bietet eine vollständige Blueprint-API zum Laden von Modellen, Senden von Nachrichten und Empfangen von tokenweisen Antworten – alles in einem Hintergrundthread mit Game-Thread-Callbacks.
Das Plugin unterstützt Windows, Mac, Linux, Android (einschließlich Meta Quest und anderer Android-basierter Plattformen) sowie iOS.
Hauptmerkmale
- Komplette Offline-Inferenz: Keine Cloud-Dienste oder API-Schlüssel zur Laufzeit
- GGUF-Modellunterstützung: Laden Sie jedes Modell im GGUF-Format (Llama, Mistral, Phi, Gemma, Qwen, usw.)
- Aktuelles llama.cpp: Regelmäßig auf Fab aktualisiert, um mit den llama.cpp-Veröffentlichungen Schritt zu halten, sodass die neuesten GGUF-Modellformate stets unterstützt werden
- GPU-Beschleunigung: Verwendet Vulkan unter Windows und Linux, Metal unter Mac und iOS sowie CPU + Intrinsics unter Android und Meta Quest
- Mehrere Methoden zum Laden von Modellen:
- Von einem lokalen Dateipfad laden
- Nach Modellnamen laden (Dropdown-Auswahl in Blueprints)
- Von einer URL herunterladen und automatisch laden
- Nur herunterladen zum Vorab-Caching von Modellen
- Token-für-Token-Streaming: Jedes Token wird empfangen, sobald es generiert wird, für eine Echtzeitanzeige
- Asynchrone Blueprint-Knoten: Knoten mit Ausgabe-Delegaten zum Laden, Senden von Nachrichten und Herunterladen
- Konfigurierbare Inferenzparameter: Temperatur, Top-P, Top-K, Wiederholungsstrafe, GPU-Layer-Auslagerung, Kontextgröße, Seed, Thread-Anzahl und System-Prompt
- Gesprächsverwaltung: Mehrrunden-Gespräche mit Kontextzurücksetzung, Speichern/Laden auf Festplatte, In-Memory-Snapshots und automatischer Zusammenfassung für langlebige Chats
- Editor-Modellverwalter: Modelle direkt in den Projekteinstellungen durchsuchen, herunterladen, importieren, löschen und testen
- Plattformübergreifendes Packaging: Modelle werden über NonUFS-Staging mit Ihrem Projekt ausgeliefert
So funktioniert es
- Modelle im Editor verwalten: Verwenden Sie das Plugin-Einstellungsfenster, um einen Katalog vordefinierter Modelle zu durchsuchen, diese herunterzuladen oder eigene GGUF-Dateien zu importieren
- Ein Modell zur Laufzeit laden: Rufen Sie eine der Ladefunktionen (nach Datei, nach Name, nach URL oder nach Metadaten) mit Ihren Inferenzparametern auf
- Nachrichten senden: Übergeben Sie eine Benutzernachricht an die LLM-Instanz; Token werden über Delegaten zurückgestreamt, während das Modell eine Antwort generiert
- Die Antwort verwenden: Zeigen Sie Token in einer Chat-Benutzeroberfläche an, steuern Sie NPC-Dialoge, generieren Sie dynamische Inhalte oder speisen Sie sie in andere Systeme ein
Die gesamte Inferenz läuft in einem dedizierten Hintergrundthread. Callbacks (Token-Generierung, Abschluss, Fehler) werden im Spielthread ausgelöst, sodass Sie von dort aus sicher die Benutzeroberfläche und den Spielstatus aktualisieren können.
Häufige Anwendungsfälle
- Chatbots und Assistenten im Spiel: Fragen & Antworten, Hilfesysteme, dynamische Tutorials
- NPC-Dialoge: Gesprächsfähige NPCs mit persistentem, charakterbezogenem Gedächtnis mithilfe von Gesprächsmomentaufnahmen
- Langlaufende Rollenspiel- und Erzählsysteme: Automatische Zusammenfassung hält mehrstündige Gespräche innerhalb der Kontextgrenzen, ohne wichtige Fakten zu verlieren
- Prozedurale Inhalte: Generiere Questbeschreibungen, Gegenstandsüberlieferungen und Dialogbäume spontan
- Offline-zuerst-Anwendungen: Alles, das LLM-Fähigkeiten ohne Netzwerkverbindung benötigt
Modellspeicherung und -verpackung
Modelle werden als .gguf-Dateien im Verzeichnis Content/RuntimeLocalLLM/Models Ihres Projekts gespeichert. Das Plugin konfiguriert automatisch Zusätzliche Nicht-Asset-Verzeichnisse zum Kopieren (DirectoriesToAlwaysStageAsNonUFS), sodass Modelldateien mit Ihrem verpackten Projekt ausgeliefert werden und zur Laufzeit über standardmäßige Datei-E/A zugänglich bleiben.
Jedes Modell verfügt außerdem über eine .json-Begleitdatei, die seine Metadaten speichert (Anzeigename, Familie, Variante, Beschreibung, Parameteranzahl).
Unterstützte Modelle
Das Plugin funktioniert mit jedem Modell im GGUF-Format. Der Editor bietet einen Katalog beliebter vordefinierter Modelle zum Herunterladen mit einem Klick, und Sie können jede benutzerdefinierte GGUF-Datei importieren. Zu den gängigen Modellfamilien gehören:
- Llama (Meta) — 1B, 3B, 8B und größer
- Mistral / Mixtral — 7B und größer
- Phi (Microsoft) — 2B, 3B, 4B
- Gemma (Google) — 2B, 7B
- Qwen (Alibaba) — 1,5B, 7B und größer
- TinyLlama — 1,1B
- Und viele weitere Community-Modelle
Quantisierung
Modelle sind in verschiedenen Quantisierungsstufen erhältlich, die Qualität gegen Größe und Geschwindigkeit abwägen:
| Quantisierung | Qualität | Size | Geschwindigkeit |
|---|---|---|---|
| Q2_K | Niedriger | Kleinste | Am schnellsten |
| Q4_K_M | Good | Mittel | Fast |
| Q5_K_M | Besser | Größer | Moderat |
| Q8_0 | High | Groß | Langsamer |
| F16 / F32 | Höchste | Größte | Am langsamsten |
Für mobile und VR-Geräte werden kleinere Quantisierungen (Q2_K bis Q4_K_M) mit kompakten Modellen (1B–3B Parameter) empfohlen. Für Desktop können Sie je nach verfügbarem RAM und CPU/GPU-Ressourcen größere Modelle und höhere Quantisierungsstufen verwenden.
Zusätzliche Ressourcen
- Get it on Fab
- Produktwebsite
- Demo herunterladen (Windows)
- Video-Tutorial
- Plugin-Support & individuelle Entwicklung: [email protected] (maßgeschneiderte Lösungen für Teams & Organisationen)