Zum Hauptinhalt springen

Übersicht

Runtime Local LLM Dokumentation

Runtime Local LLM ist ein Plugin, das große Sprachmodelle vollständig auf dem Gerät unter Verwendung von llama.cpp ausführt, ohne dass zur Laufzeit eine Internetverbindung erforderlich ist. Es unterstützt GGUF-Modelldateien und bietet eine vollständige Blueprint-API zum Laden von Modellen, Senden von Nachrichten und Empfangen von Token-für-Token-Antworten – alles in einem Hintergrund-Thread mit Game-Thread-Callbacks.

Das Plugin unterstützt Windows, Mac, Linux, Android (einschließlich Meta Quest und anderer Android-basierter Plattformen) sowie iOS.

Hauptmerkmale

  • Vollständige Offline-Inferenz: Keine Cloud-Dienste oder API-Schlüssel zur Laufzeit
  • GGUF-Modellunterstützung: Laden Sie jedes Modell im GGUF-Format (Llama, Mistral, Phi, Gemma, Qwen, usw.)
  • Aktuelles llama.cpp: Wird regelmäßig auf Fab aktualisiert, um mit llama.cpp-Veröffentlichungen Schritt zu halten, sodass die neuesten GGUF-Modellformate immer unterstützt werden
  • GPU-Beschleunigung: Verwendet Vulkan unter Windows und Linux, Metal unter Mac und iOS sowie CPU + Intrinsics unter Android und Meta Quest
  • Mehrere Methoden zum Laden von Modellen:
    • Von einem lokalen Dateipfad laden
    • Nach Modellnamen laden (Dropdown-Auswahl in Blueprints)
    • Von URL herunterladen und automatisch laden
    • Nur herunterladen für das Vorab-Caching von Modellen
  • Token-für-Token-Streaming: Empfangen Sie jedes Token, sobald es generiert wird, für die Echtzeitanzeige
  • Asynchrone Blueprint-Knoten: Knoten mit Ausgabe-Delegaten für Laden, Senden von Nachrichten und Herunterladen
  • Konfigurierbare Inferenzparameter: Temperatur, Top-P, Top-K, Wiederholungsstrafe, GPU-Layer-Offloading, Kontextgröße, Seed, Thread-Anzahl und Systemaufforderung
  • Konversationskontextverwaltung: Führen Sie mehrstufige Gespräche mit Unterstützung für Kontext-Reset
  • Editor-Modellmanager: Durchsuchen, Herunterladen, Importieren, Löschen und Testen von Modellen direkt in den Projekteinstellungen
  • Plattformübergreifende Paketierung: Modelle werden mit Ihrem Projekt über NonUFS-Staging ausgeliefert

Funktionsweise

  1. Modelle im Editor verwalten: Verwenden Sie das Plugin-Einstellungsfenster, um einen Katalog vordefinierter Modelle zu durchsuchen, sie herunterzuladen oder eigene GGUF-Dateien zu importieren
  2. Ein Modell zur Laufzeit laden: Rufen Sie eine der Ladefunktionen auf (nach Datei, nach Name, nach URL oder nach Metadaten) mit Ihren Inferenzparametern
  3. Nachrichten senden: Übergeben Sie eine Benutzernachricht an die LLM-Instanz; Tokens strömen über Delegaten zurück, während das Modell eine Antwort generiert
  4. Die Antwort verwenden: Zeigen Sie Tokens in einer Chat-UI an, steuern Sie NPC-Dialoge, generieren Sie dynamische Inhalte oder speisen Sie sie in andere Systeme ein

Die gesamte Inferenz läuft in einem eigenen Hintergrund-Thread. Callbacks (Token-Generierung, Abschluss, Fehler) werden im Game-Thread ausgelöst, sodass Sie UI und Spielzustand sicher von ihnen aus aktualisieren können.

Modellspeicherung und Paketierung

Modelle werden als .gguf-Dateien im Verzeichnis Content/RuntimeLocalLLM/Models Ihres Projekts gespeichert. Das Plugin konfiguriert automatisch Additional Non-Asset Directories To Copy (DirectoriesToAlwaysStageAsNonUFS), sodass Modelldateien mit Ihrem paketierten Projekt ausgeliefert werden und zur Laufzeit über standardmäßige Datei-I/O zugänglich bleiben.

Jedes Modell hat auch eine .json-Begleitdatei, die seine Metadaten speichert (Anzeigename, Familie, Variante, Beschreibung, Parameteranzahl).

Unterstützte Modelle

Das Plugin funktioniert mit jedem Modell im GGUF-Format. Der Editor bietet einen Katalog beliebter vordefinierter Modelle zum Herunterladen mit einem Klick, und Sie können jede benutzerdefinierte GGUF-Datei importieren. Zu den gängigen Modellfamilien gehören:

  • Llama (Meta) — 1B, 3B, 8B und größer
  • Mistral / Mixtral — 7B und größer
  • Phi (Microsoft) — 2B, 3B, 4B
  • Gemma (Google) — 2B, 7B
  • Qwen (Alibaba) — 1.5B, 7B und größer
  • TinyLlama — 1.1B
  • Und viele weitere Community-Modelle

Quantisierung

Modelle gibt es in verschiedenen Quantisierungsstufen, die Qualität gegen Größe und Geschwindigkeit abwägen:

QuantisierungQualitätGrößeGeschwindigkeit
Q2_KGeringerAm kleinstenAm schnellsten
Q4_K_MGutMittelSchnell
Q5_K_MBesserGrößerModerat
Q8_0HochGroßLangsamer
F16 / F32Am höchstenAm größtenAm langsamsten

Für mobile Geräte und VR-Geräte werden kleinere Quantisierungen (Q2_K bis Q4_K_M) mit kompakten Modellen (1B–3B Parameter) empfohlen. Für Desktop können Sie größere Modelle und höhere Quantisierungsstufen verwenden, abhängig von verfügbarem RAM und CPU/GPU-Ressourcen.

Zusätzliche Ressourcen

Join our Discord
online · support