Übersicht

Runtime Local LLM ist ein Plugin, das große Sprachmodelle vollständig auf dem Gerät unter Verwendung von llama.cpp ausführt, ohne dass zur Laufzeit eine Internetverbindung erforderlich ist. Es unterstützt GGUF-Modelldateien und bietet eine vollständige Blueprint-API zum Laden von Modellen, Senden von Nachrichten und Empfangen von Token-für-Token-Antworten – alles in einem Hintergrund-Thread mit Game-Thread-Callbacks.

Das Plugin unterstützt Windows, Mac, Linux, Android (einschließlich Meta Quest und anderer Android-basierter Plattformen) sowie iOS.

Hauptmerkmale

Vollständige Offline-Inferenz: Keine Cloud-Dienste oder API-Schlüssel zur Laufzeit
GGUF-Modellunterstützung: Laden Sie jedes Modell im GGUF-Format (Llama, Mistral, Phi, Gemma, Qwen, usw.)
Aktuelles llama.cpp: Wird regelmäßig auf Fab aktualisiert, um mit llama.cpp-Veröffentlichungen Schritt zu halten, sodass die neuesten GGUF-Modellformate immer unterstützt werden
GPU-Beschleunigung: Verwendet Vulkan unter Windows und Linux, Metal unter Mac und iOS sowie CPU + Intrinsics unter Android und Meta Quest
Mehrere Methoden zum Laden von Modellen:
- Von einem lokalen Dateipfad laden
- Nach Modellnamen laden (Dropdown-Auswahl in Blueprints)
- Von URL herunterladen und automatisch laden
- Nur herunterladen für das Vorab-Caching von Modellen
Token-für-Token-Streaming: Empfangen Sie jedes Token, sobald es generiert wird, für die Echtzeitanzeige
Asynchrone Blueprint-Knoten: Knoten mit Ausgabe-Delegaten für Laden, Senden von Nachrichten und Herunterladen
Konfigurierbare Inferenzparameter: Temperatur, Top-P, Top-K, Wiederholungsstrafe, GPU-Layer-Offloading, Kontextgröße, Seed, Thread-Anzahl und Systemaufforderung
Konversationskontextverwaltung: Führen Sie mehrstufige Gespräche mit Unterstützung für Kontext-Reset
Editor-Modellmanager: Durchsuchen, Herunterladen, Importieren, Löschen und Testen von Modellen direkt in den Projekteinstellungen
Plattformübergreifende Paketierung: Modelle werden mit Ihrem Projekt über NonUFS-Staging ausgeliefert

Funktionsweise

Modelle im Editor verwalten: Verwenden Sie das Plugin-Einstellungsfenster, um einen Katalog vordefinierter Modelle zu durchsuchen, sie herunterzuladen oder eigene GGUF-Dateien zu importieren
Ein Modell zur Laufzeit laden: Rufen Sie eine der Ladefunktionen auf (nach Datei, nach Name, nach URL oder nach Metadaten) mit Ihren Inferenzparametern
Nachrichten senden: Übergeben Sie eine Benutzernachricht an die LLM-Instanz; Tokens strömen über Delegaten zurück, während das Modell eine Antwort generiert
Die Antwort verwenden: Zeigen Sie Tokens in einer Chat-UI an, steuern Sie NPC-Dialoge, generieren Sie dynamische Inhalte oder speisen Sie sie in andere Systeme ein

Die gesamte Inferenz läuft in einem eigenen Hintergrund-Thread. Callbacks (Token-Generierung, Abschluss, Fehler) werden im Game-Thread ausgelöst, sodass Sie UI und Spielzustand sicher von ihnen aus aktualisieren können.

Modellspeicherung und Paketierung

Modelle werden als .gguf-Dateien im Verzeichnis Content/RuntimeLocalLLM/Models Ihres Projekts gespeichert. Das Plugin konfiguriert automatisch Additional Non-Asset Directories To Copy (DirectoriesToAlwaysStageAsNonUFS), sodass Modelldateien mit Ihrem paketierten Projekt ausgeliefert werden und zur Laufzeit über standardmäßige Datei-I/O zugänglich bleiben.

Jedes Modell hat auch eine .json-Begleitdatei, die seine Metadaten speichert (Anzeigename, Familie, Variante, Beschreibung, Parameteranzahl).

Unterstützte Modelle

Das Plugin funktioniert mit jedem Modell im GGUF-Format. Der Editor bietet einen Katalog beliebter vordefinierter Modelle zum Herunterladen mit einem Klick, und Sie können jede benutzerdefinierte GGUF-Datei importieren. Zu den gängigen Modellfamilien gehören:

Llama (Meta) — 1B, 3B, 8B und größer
Mistral / Mixtral — 7B und größer
Phi (Microsoft) — 2B, 3B, 4B
Gemma (Google) — 2B, 7B
Qwen (Alibaba) — 1.5B, 7B und größer
TinyLlama — 1.1B
Und viele weitere Community-Modelle

Quantisierung

Modelle gibt es in verschiedenen Quantisierungsstufen, die Qualität gegen Größe und Geschwindigkeit abwägen:

Quantisierung	Qualität	Größe	Geschwindigkeit
Q2_K	Geringer	Am kleinsten	Am schnellsten
Q4_K_M	Gut	Mittel	Schnell
Q5_K_M	Besser	Größer	Moderat
Q8_0	Hoch	Groß	Langsamer
F16 / F32	Am höchsten	Am größten	Am langsamsten

Für mobile Geräte und VR-Geräte werden kleinere Quantisierungen (Q2_K bis Q4_K_M) mit kompakten Modellen (1B–3B Parameter) empfohlen. Für Desktop können Sie größere Modelle und höhere Quantisierungsstufen verwenden, abhängig von verfügbarem RAM und CPU/GPU-Ressourcen.

Zusätzliche Ressourcen

Auf Fab erhalten
Produkt-Website
Demo herunterladen (Windows)
Video-Tutorial
Plugin Support & Custom Development: [email protected] (maßgeschneiderte Lösungen für Teams & Organisationen)

Join our Discord

online · support

Hauptmerkmale​

Funktionsweise​

Modellspeicherung und Paketierung​

Unterstützte Modelle​

Quantisierung​

Zusätzliche Ressourcen​