Zum Hauptinhalt springen

Übersicht

Runtime Local LLM Documentation

Runtime Local LLM ist ein Plugin, das große Sprachmodelle vollständig auf dem Gerät ausführt, und zwar mit llama.cpp, ohne dass zur Laufzeit eine Internetverbindung erforderlich ist. Es unterstützt GGUF-Modelldateien und bietet eine vollständige Blueprint-API zum Laden von Modellen, Senden von Nachrichten und Empfangen von tokenweisen Antworten – alles in einem Hintergrundthread mit Game-Thread-Callbacks.

Das Plugin unterstützt Windows, Mac, Linux, Android (einschließlich Meta Quest und anderer Android-basierter Plattformen) sowie iOS.

Hauptmerkmale

  • Komplette Offline-Inferenz: Keine Cloud-Dienste oder API-Schlüssel zur Laufzeit
  • GGUF-Modellunterstützung: Laden Sie jedes Modell im GGUF-Format (Llama, Mistral, Phi, Gemma, Qwen, usw.)
  • Aktuelles llama.cpp: Regelmäßig auf Fab aktualisiert, um mit den llama.cpp-Veröffentlichungen Schritt zu halten, sodass die neuesten GGUF-Modellformate stets unterstützt werden
  • GPU-Beschleunigung: Verwendet Vulkan unter Windows und Linux, Metal unter Mac und iOS sowie CPU + Intrinsics unter Android und Meta Quest
  • Mehrere Methoden zum Laden von Modellen:
    • Von einem lokalen Dateipfad laden
    • Nach Modellnamen laden (Dropdown-Auswahl in Blueprints)
    • Von einer URL herunterladen und automatisch laden
    • Nur herunterladen zum Vorab-Caching von Modellen
  • Token-für-Token-Streaming: Jedes Token wird empfangen, sobald es generiert wird, für eine Echtzeitanzeige
  • Asynchrone Blueprint-Knoten: Knoten mit Ausgabe-Delegaten zum Laden, Senden von Nachrichten und Herunterladen
  • Konfigurierbare Inferenzparameter: Temperatur, Top-P, Top-K, Wiederholungsstrafe, GPU-Layer-Auslagerung, Kontextgröße, Seed, Thread-Anzahl und System-Prompt
  • Gesprächsverwaltung: Mehrrunden-Gespräche mit Kontextzurücksetzung, Speichern/Laden auf Festplatte, In-Memory-Snapshots und automatischer Zusammenfassung für langlebige Chats
  • Editor-Modellverwalter: Modelle direkt in den Projekteinstellungen durchsuchen, herunterladen, importieren, löschen und testen
  • Plattformübergreifendes Packaging: Modelle werden über NonUFS-Staging mit Ihrem Projekt ausgeliefert

So funktioniert es

  1. Modelle im Editor verwalten: Verwenden Sie das Plugin-Einstellungsfenster, um einen Katalog vordefinierter Modelle zu durchsuchen, diese herunterzuladen oder eigene GGUF-Dateien zu importieren
  2. Ein Modell zur Laufzeit laden: Rufen Sie eine der Ladefunktionen (nach Datei, nach Name, nach URL oder nach Metadaten) mit Ihren Inferenzparametern auf
  3. Nachrichten senden: Übergeben Sie eine Benutzernachricht an die LLM-Instanz; Token werden über Delegaten zurückgestreamt, während das Modell eine Antwort generiert
  4. Die Antwort verwenden: Zeigen Sie Token in einer Chat-Benutzeroberfläche an, steuern Sie NPC-Dialoge, generieren Sie dynamische Inhalte oder speisen Sie sie in andere Systeme ein

Die gesamte Inferenz läuft in einem dedizierten Hintergrundthread. Callbacks (Token-Generierung, Abschluss, Fehler) werden im Spielthread ausgelöst, sodass Sie von dort aus sicher die Benutzeroberfläche und den Spielstatus aktualisieren können.

Häufige Anwendungsfälle

  • Chatbots und Assistenten im Spiel: Fragen & Antworten, Hilfesysteme, dynamische Tutorials
  • NPC-Dialoge: Gesprächsfähige NPCs mit persistentem, charakterbezogenem Gedächtnis mithilfe von Gesprächsmomentaufnahmen
  • Langlaufende Rollenspiel- und Erzählsysteme: Automatische Zusammenfassung hält mehrstündige Gespräche innerhalb der Kontextgrenzen, ohne wichtige Fakten zu verlieren
  • Prozedurale Inhalte: Generiere Questbeschreibungen, Gegenstandsüberlieferungen und Dialogbäume spontan
  • Offline-zuerst-Anwendungen: Alles, das LLM-Fähigkeiten ohne Netzwerkverbindung benötigt

Modellspeicherung und -verpackung

Modelle werden als .gguf-Dateien im Verzeichnis Content/RuntimeLocalLLM/Models Ihres Projekts gespeichert. Das Plugin konfiguriert automatisch Zusätzliche Nicht-Asset-Verzeichnisse zum Kopieren (DirectoriesToAlwaysStageAsNonUFS), sodass Modelldateien mit Ihrem verpackten Projekt ausgeliefert werden und zur Laufzeit über standardmäßige Datei-E/A zugänglich bleiben.

Jedes Modell verfügt außerdem über eine .json-Begleitdatei, die seine Metadaten speichert (Anzeigename, Familie, Variante, Beschreibung, Parameteranzahl).

Unterstützte Modelle

Das Plugin funktioniert mit jedem Modell im GGUF-Format. Der Editor bietet einen Katalog beliebter vordefinierter Modelle zum Herunterladen mit einem Klick, und Sie können jede benutzerdefinierte GGUF-Datei importieren. Zu den gängigen Modellfamilien gehören:

  • Llama (Meta) — 1B, 3B, 8B und größer
  • Mistral / Mixtral — 7B und größer
  • Phi (Microsoft) — 2B, 3B, 4B
  • Gemma (Google) — 2B, 7B
  • Qwen (Alibaba) — 1,5B, 7B und größer
  • TinyLlama — 1,1B
  • Und viele weitere Community-Modelle

Quantisierung

Modelle sind in verschiedenen Quantisierungsstufen erhältlich, die Qualität gegen Größe und Geschwindigkeit abwägen:

QuantisierungQualitätSizeGeschwindigkeit
Q2_KNiedrigerKleinsteAm schnellsten
Q4_K_MGoodMittelFast
Q5_K_MBesserGrößerModerat
Q8_0HighGroßLangsamer
F16 / F32HöchsteGrößteAm langsamsten

Für mobile und VR-Geräte werden kleinere Quantisierungen (Q2_K bis Q4_K_M) mit kompakten Modellen (1B–3B Parameter) empfohlen. Für Desktop können Sie je nach verfügbarem RAM und CPU/GPU-Ressourcen größere Modelle und höhere Quantisierungsstufen verwenden.

Zusätzliche Ressourcen

Join our Discord
online · support