Genel Bakış

Runtime Local LLM, llama.cpp kullanarak büyük dil modellerini tamamen cihaz üzerinde çalıştıran, çalışma zamanında internet bağlantısı gerektirmeyen bir eklentidir. GGUF model dosyalarını destekler ve modelleri yüklemek, mesaj göndermek ve token-token yanıtlar almak için tam bir Blueprint API'si sunar; tüm bunlar arka plan iş parçacığında ve oyun iş parçacığı geri çağrılarıyla gerçekleşir.

Eklenti, Windows, Mac, Linux, Android (Meta Quest ve diğer Android tabanlı platformlar dahil) ve iOS'u destekler.

Temel Özellikler

Tamamen çevrimdışı çıkarım: Çalışma zamanında bulut hizmetlerine veya API anahtarlarına gerek yok
GGUF model desteği: Herhangi bir GGUF formatındaki modeli yükleme (Llama, Mistral, Phi, Gemma, Qwen, vb.)
Güncel llama.cpp: llama.cpp sürümlerine ayak uydurmak için Fab'da düzenli olarak güncellenir, böylece en yeni GGUF model formatları her zaman desteklenir
GPU hızlandırma: Windows ve Linux'ta Vulkan, Mac ve iOS'ta Metal, Android ve Meta Quest'te CPU + intrinsikler kullanır
Çoklu model yükleme yöntemleri:
- Yerel bir dosya yolundan yükle
- Model adına göre yükle (Blueprint'lerde açılır menü seçimi)
- URL'den indir ve otomatik olarak yükle
- Modelleri ön belleğe almak için yalnızca indir
Token-token akış: Her bir token oluşturulduğunda gerçek zamanlı görüntüleme için alın
Async Blueprint düğümleri: Yükleme, mesaj gönderme ve indirme için çıkış delegelerine sahip düğümler
Yapılandırılabilir çıkarım parametreleri: Sıcaklık, Top-P, Top-K, tekrar cezası, GPU katman aktarımı, bağlam boyutu, tohum, iş parçacığı sayısı ve sistem istemi
Konuşma bağlamı yönetimi: Bağlam sıfırlama desteğiyle çok turlu konuşmaları sürdürün
Editör model yöneticisi: Proje ayarlarından doğrudan modellere göz atın, indirin, içe aktarın, silin ve test edin
Çapraz platform paketleme: Modeller projenizle birlikte NonUFS evrelemesi yoluyla gönderilir

Nasıl Çalışır

Editörde modelleri yönetin: Önceden tanımlanmış modeller kataloğuna göz atmak, indirmek veya kendi GGUF dosyalarınızı içe aktarmak için eklenti ayarları panelini kullanın
Çalışma zamanında bir model yükleyin: Çıkarım parametrelerinizle birlikte yükleme fonksiyonlarından birini çağırın (dosyaya göre, ada göre, URL'ye göre veya meta verilere göre)
Mesaj gönderin: LLM örneğine bir kullanıcı mesajı iletin; model yanıtı oluştururken token'lar delegeler aracılığıyla geri akar
Yanıtı kullanın: Token'ları bir sohbet arayüzünde görüntüleyin, NPC diyaloğunu yönlendirin, dinamik içerik oluşturun veya diğer sistemlere besleyin

Tüm çıkarım, özel bir arka plan iş parçacığında çalışır. Geri çağrılar (token oluşturma, tamamlama, hatalar) oyun iş parçacığında tetiklenir, böylece UI ve oyun durumunu bunlardan güvenle güncelleyebilirsiniz.

Model Depolama ve Paketleme

Modeller, projenizin Content/RuntimeLocalLLM/Models dizininde .gguf dosyaları olarak saklanır. Eklenti, model dosyalarının paketlenmiş projenizle birlikte gelmesi ve çalışma zamanında standart dosya G/Ç yoluyla erişilebilir kalması için Additional Non-Asset Directories To Copy (DirectoriesToAlwaysStageAsNonUFS) özelliğini otomatik olarak yapılandırır.

Her modelin ayrıca, meta verilerini (görünen ad, aile, varyant, açıklama, parametre sayısı) saklayan bir .json yan dosyası vardır.

Desteklenen Modeller

Eklenti, GGUF formatındaki herhangi bir modelle çalışır. Editör, tek tıklamayla indirme için popüler önceden tanımlanmış modellerin bir kataloğunu sunar ve herhangi bir özel GGUF dosyasını içe aktarabilirsiniz. Yaygın model aileleri şunları içerir:

Llama (Meta) — 1B, 3B, 8B, and larger
Mistral / Mixtral — 7B and larger
Phi (Microsoft) — 2B, 3B, 4B
Gemma (Google) — 2B, 7B
Qwen (Alibaba) — 1.5B, 7B, and larger
TinyLlama — 1.1B
And many more community models

Nicemleme

Modeller, kalite ile boyut ve hız arasında ödünleşim sağlayan çeşitli nicemleme seviyelerinde gelir:

Nicemleme	Kalite	Boyut	Hız
Q2_K	Daha düşük	En küçük	En hızlı
Q4_K_M	İyi	Orta	Hızlı
Q5_K_M	Daha iyi	Daha büyük	Orta düzey
Q8_0	Yüksek	Büyük	Daha yavaş
F16 / F32	En yüksek	En büyük	En yavaş

Mobil ve VR cihazlar için, kompakt modeller (1B–3B parametre) ile daha küçük nicemlemeler (Q2_K ila Q4_K_M) önerilir. Masaüstü için, mevcut RAM ve CPU/GPU kaynaklarına bağlı olarak daha büyük modeller ve daha yüksek nicemleme seviyeleri kullanabilirsiniz.

Ek Kaynaklar

Get it on Fab
Product website
Download Demo (Windows)
Video tutorial
Plugin Support & Custom Development: [email protected] (tailored solutions for teams & organizations)

Join our Discord

online · support

Temel Özellikler​

Nasıl Çalışır​

Model Depolama ve Paketleme​

Desteklenen Modeller​

Nicemleme​

Ek Kaynaklar​