Übersicht

Runtime Local LLM ist ein Plugin, das große Sprachmodelle vollständig auf dem Gerät unter Verwendung von llama.cpp ausführt, ohne dass zur Laufzeit eine Internetverbindung erforderlich ist. Es unterstützt GGUF-Modelldateien und bietet eine vollständige Blueprint-API zum Laden von Modellen, Senden von Nachrichten und Empfangen von Token-für-Token-Antworten – alles in einem Hintergrund-Thread mit Game-Thread-Callbacks.
Das Plugin unterstützt Windows, Mac, Linux, Android (einschließlich Meta Quest und anderer Android-basierter Plattformen) sowie iOS.
Hauptmerkmale
- Vollständige Offline-Inferenz: Keine Cloud-Dienste oder API-Schlüssel zur Laufzeit
- GGUF-Modellunterstützung: Laden Sie jedes Modell im GGUF-Format (Llama, Mistral, Phi, Gemma, Qwen, usw.)
- Aktuelles llama.cpp: Wird regelmäßig auf Fab aktualisiert, um mit llama.cpp-Veröffentlichungen Schritt zu halten, sodass die neuesten GGUF-Modellformate immer unterstützt werden
- GPU-Beschleunigung: Verwendet Vulkan unter Windows und Linux, Metal unter Mac und iOS sowie CPU + Intrinsics unter Android und Meta Quest
- Mehrere Methoden zum Laden von Modellen:
- Von einem lokalen Dateipfad laden
- Nach Modellnamen laden (Dropdown-Auswahl in Blueprints)
- Von URL herunterladen und automatisch laden
- Nur herunterladen für das Vorab-Caching von Modellen
- Token-für-Token-Streaming: Empfangen Sie jedes Token, sobald es generiert wird, für die Echtzeitanzeige
- Asynchrone Blueprint-Knoten: Knoten mit Ausgabe-Delegaten für Laden, Senden von Nachrichten und Herunterladen
- Konfigurierbare Inferenzparameter: Temperatur, Top-P, Top-K, Wiederholungsstrafe, GPU-Layer-Offloading, Kontextgröße, Seed, Thread-Anzahl und Systemaufforderung
- Konversationskontextverwaltung: Führen Sie mehrstufige Gespräche mit Unterstützung für Kontext-Reset
- Editor-Modellmanager: Durchsuchen, Herunterladen, Importieren, Löschen und Testen von Modellen direkt in den Projekteinstellungen
- Plattformübergreifende Paketierung: Modelle werden mit Ihrem Projekt über NonUFS-Staging ausgeliefert
Funktionsweise
- Modelle im Editor verwalten: Verwenden Sie das Plugin-Einstellungsfenster, um einen Katalog vordefinierter Modelle zu durchsuchen, sie herunterzuladen oder eigene GGUF-Dateien zu importieren
- Ein Modell zur Laufzeit laden: Rufen Sie eine der Ladefunktionen auf (nach Datei, nach Name, nach URL oder nach Metadaten) mit Ihren Inferenzparametern
- Nachrichten senden: Übergeben Sie eine Benutzernachricht an die LLM-Instanz; Tokens strömen über Delegaten zurück, während das Modell eine Antwort generiert
- Die Antwort verwenden: Zeigen Sie Tokens in einer Chat-UI an, steuern Sie NPC-Dialoge, generieren Sie dynamische Inhalte oder speisen Sie sie in andere Systeme ein
Die gesamte Inferenz läuft in einem eigenen Hintergrund-Thread. Callbacks (Token-Generierung, Abschluss, Fehler) werden im Game-Thread ausgelöst, sodass Sie UI und Spielzustand sicher von ihnen aus aktualisieren können.
Modellspeicherung und Paketierung
Modelle werden als .gguf-Dateien im Verzeichnis Content/RuntimeLocalLLM/Models Ihres Projekts gespeichert. Das Plugin konfiguriert automatisch Additional Non-Asset Directories To Copy (DirectoriesToAlwaysStageAsNonUFS), sodass Modelldateien mit Ihrem paketierten Projekt ausgeliefert werden und zur Laufzeit über standardmäßige Datei-I/O zugänglich bleiben.
Jedes Modell hat auch eine .json-Begleitdatei, die seine Metadaten speichert (Anzeigename, Familie, Variante, Beschreibung, Parameteranzahl).
Unterstützte Modelle
Das Plugin funktioniert mit jedem Modell im GGUF-Format. Der Editor bietet einen Katalog beliebter vordefinierter Modelle zum Herunterladen mit einem Klick, und Sie können jede benutzerdefinierte GGUF-Datei importieren. Zu den gängigen Modellfamilien gehören:
- Llama (Meta) — 1B, 3B, 8B und größer
- Mistral / Mixtral — 7B und größer
- Phi (Microsoft) — 2B, 3B, 4B
- Gemma (Google) — 2B, 7B
- Qwen (Alibaba) — 1.5B, 7B und größer
- TinyLlama — 1.1B
- Und viele weitere Community-Modelle
Quantisierung
Modelle gibt es in verschiedenen Quantisierungsstufen, die Qualität gegen Größe und Geschwindigkeit abwägen:
| Quantisierung | Qualität | Größe | Geschwindigkeit |
|---|---|---|---|
| Q2_K | Geringer | Am kleinsten | Am schnellsten |
| Q4_K_M | Gut | Mittel | Schnell |
| Q5_K_M | Besser | Größer | Moderat |
| Q8_0 | Hoch | Groß | Langsamer |
| F16 / F32 | Am höchsten | Am größten | Am langsamsten |
Für mobile Geräte und VR-Geräte werden kleinere Quantisierungen (Q2_K bis Q4_K_M) mit kompakten Modellen (1B–3B Parameter) empfohlen. Für Desktop können Sie größere Modelle und höhere Quantisierungsstufen verwenden, abhängig von verfügbarem RAM und CPU/GPU-Ressourcen.
Zusätzliche Ressourcen
- Auf Fab erhalten
- Produkt-Website
- Demo herunterladen (Windows)
- Video-Tutorial
- Plugin Support & Custom Development: [email protected] (maßgeschneiderte Lösungen für Teams & Organisationen)