Genel Bakış

Runtime Local LLM, llama.cpp kullanarak büyük dil modellerini tamamen cihaz üzerinde çalıştıran, çalışma zamanında internet bağlantısı gerektirmeyen bir eklentidir. GGUF model dosyalarını destekler ve modelleri yüklemek, mesaj göndermek ve token-token yanıtlar almak için tam bir Blueprint API'si sunar; tüm bunlar arka plan iş parçacığında ve oyun iş parçacığı geri çağrılarıyla gerçekleşir.
Eklenti, Windows, Mac, Linux, Android (Meta Quest ve diğer Android tabanlı platformlar dahil) ve iOS'u destekler.
Temel Özellikler
- Tamamen çevrimdışı çıkarım: Çalışma zamanında bulut hizmetlerine veya API anahtarlarına gerek yok
- GGUF model desteği: Herhangi bir GGUF formatındaki modeli yükleme (Llama, Mistral, Phi, Gemma, Qwen, vb.)
- Güncel llama.cpp: llama.cpp sürümlerine ayak uydurmak için Fab'da düzenli olarak güncellenir, böylece en yeni GGUF model formatları her zaman desteklenir
- GPU hızlandırma: Windows ve Linux'ta Vulkan, Mac ve iOS'ta Metal, Android ve Meta Quest'te CPU + intrinsikler kullanır
- Çoklu model yükleme yöntemleri:
- Yerel bir dosya yolundan yükle
- Model adına göre yükle (Blueprint'lerde açılır menü seçimi)
- URL'den indir ve otomatik olarak yükle
- Modelleri ön belleğe almak için yalnızca indir
- Token-token akış: Her bir token oluşturulduğunda gerçek zamanlı görüntüleme için alın
- Async Blueprint düğümleri: Yükleme, mesaj gönderme ve indirme için çıkış delegelerine sahip düğümler
- Yapılandırılabilir çıkarım parametreleri: Sıcaklık, Top-P, Top-K, tekrar cezası, GPU katman aktarımı, bağlam boyutu, tohum, iş parçacığı sayısı ve sistem istemi
- Konuşma bağlamı yönetimi: Bağlam sıfırlama desteğiyle çok turlu konuşmaları sürdürün
- Editör model yöneticisi: Proje ayarlarından doğrudan modellere göz atın, indirin, içe aktarın, silin ve test edin
- Çapraz platform paketleme: Modeller projenizle birlikte NonUFS evrelemesi yoluyla gönderilir
Nasıl Çalışır
- Editörde modelleri yönetin: Önceden tanımlanmış modeller kataloğuna göz atmak, indirmek veya kendi GGUF dosyalarınızı içe aktarmak için eklenti ayarları panelini kullanın
- Çalışma zamanında bir model yükleyin: Çıkarım parametrelerinizle birlikte yükleme fonksiyonlarından birini çağırın (dosyaya göre, ada göre, URL'ye göre veya meta verilere göre)
- Mesaj gönderin: LLM örneğine bir kullanıcı mesajı iletin; model yanıtı oluştururken token'lar delegeler aracılığıyla geri akar
- Yanıtı kullanın: Token'ları bir sohbet arayüzünde görüntüleyin, NPC diyaloğunu yönlendirin, dinamik içerik oluşturun veya diğer sistemlere besleyin
Tüm çıkarım, özel bir arka plan iş parçacığında çalışır. Geri çağrılar (token oluşturma, tamamlama, hatalar) oyun iş parçacığında tetiklenir, böylece UI ve oyun durumunu bunlardan güvenle güncelleyebilirsiniz.
Model Depolama ve Paketleme
Modeller, projenizin Content/RuntimeLocalLLM/Models dizininde .gguf dosyaları olarak saklanır. Eklenti, model dosyalarının paketlenmiş projenizle birlikte gelmesi ve çalışma zamanında standart dosya G/Ç yoluyla erişilebilir kalması için Additional Non-Asset Directories To Copy (DirectoriesToAlwaysStageAsNonUFS) özelliğini otomatik olarak yapılandırır.
Her modelin ayrıca, meta verilerini (görünen ad, aile, varyant, açıklama, parametre sayısı) saklayan bir .json yan dosyası vardır.
Desteklenen Modeller
Eklenti, GGUF formatındaki herhangi bir modelle çalışır. Editör, tek tıklamayla indirme için popüler önceden tanımlanmış modellerin bir kataloğunu sunar ve herhangi bir özel GGUF dosyasını içe aktarabilirsiniz. Yaygın model aileleri şunları içerir:
- Llama (Meta) — 1B, 3B, 8B, and larger
- Mistral / Mixtral — 7B and larger
- Phi (Microsoft) — 2B, 3B, 4B
- Gemma (Google) — 2B, 7B
- Qwen (Alibaba) — 1.5B, 7B, and larger
- TinyLlama — 1.1B
- And many more community models
Nicemleme
Modeller, kalite ile boyut ve hız arasında ödünleşim sağlayan çeşitli nicemleme seviyelerinde gelir:
| Nicemleme | Kalite | Boyut | Hız |
|---|---|---|---|
| Q2_K | Daha düşük | En küçük | En hızlı |
| Q4_K_M | İyi | Orta | Hızlı |
| Q5_K_M | Daha iyi | Daha büyük | Orta düzey |
| Q8_0 | Yüksek | Büyük | Daha yavaş |
| F16 / F32 | En yüksek | En büyük | En yavaş |
Mobil ve VR cihazlar için, kompakt modeller (1B–3B parametre) ile daha küçük nicemlemeler (Q2_K ila Q4_K_M) önerilir. Masaüstü için, mevcut RAM ve CPU/GPU kaynaklarına bağlı olarak daha büyük modeller ve daha yüksek nicemleme seviyeleri kullanabilirsiniz.
Ek Kaynaklar
- Get it on Fab
- Product website
- Download Demo (Windows)
- Video tutorial
- Plugin Support & Custom Development: [email protected] (tailored solutions for teams & organizations)