Genel Bakış

Runtime Local LLM, llama.cpp kullanarak büyük dil modellerini tamamen cihaz üzerinde çalıştıran ve çalışma zamanında internet bağlantısı gerektirmeyen bir eklentidir. GGUF model dosyalarını destekler ve modelleri yüklemek, mesaj göndermek ve oyun iş parçacığı geri çağrılarıyla arka planda token bazında yanıtlar almak için eksiksiz bir Blueprint API'si sağlar.
Eklenti Windows, Mac, Linux, Android (Meta Quest ve diğer Android tabanlı platformlar dahil) ve iOS'u destekler.
Temel Özellikler
- Tamamen çevrimdışı çıkarım: Çalışma zamanında bulut hizmeti veya API anahtarı gerekmez
- GGUF model desteği: Herhangi bir GGUF formatındaki modeli yükleyin (Llama, Mistral, Phi, Gemma, Qwen, vb.)
- Güncel llama.cpp: Fab üzerinde llama.cpp sürümleriyle uyumlu kalacak şekilde düzenli olarak güncellenir, böylece en yeni GGUF model formatları her zaman desteklenir
- GPU hızlandırması: Windows ve Linux'ta Vulkan, Mac ve iOS'ta Metal, Android ve Meta Quest'te ise CPU + intrinsics kullanır
- Birden çok model yükleme yöntemi:
- Yerel bir dosya yolundan yükle
- Model adına göre yükle (Blueprint'lerde açılır menü seçimi)
- URL'den indir ve otomatik olarak yükle
- Yalnızca indir (modelleri önceden önbelleğe almak için)
- Token-by-token akışı: Gerçek zamanlı görüntüleme için her token oluşturuldukça alın
- Zaman uyumsuz Blueprint düğümleri: Yükleme, mesaj gönderme ve indirme için çıktı temsilcilerine sahip düğümler
- Yapılandırılabilir çıkarım parametreleri: Sıcaklık, Top-P, Top-K, tekrar cezası, GPU katmanı boşaltma, bağlam boyutu, tohum, iş parçacığı sayısı ve sistem istemi
- Konuşma yönetimi: Bağlam sıfırlama, diske kaydetme/yükleme, bellek içi anlık görüntüler ve uzun süreli sohbetler için otomatik özetleme ile çok turlu konuşmalar
- Editör model yöneticisi: Proje ayarlarından doğrudan modellere göz atma, indirme, içe aktarma, silme ve test etme
- Platformlar arası paketleme: Modeller, NonUFS hazırlama yoluyla projenizle birlikte gelir
Nasıl Çalışır
- Modelleri editörde yönetin: Eklenti ayarları panelini kullanarak önceden tanımlanmış modeller kataloğuna göz atın, bunları indirin veya kendi GGUF dosyalarınızı içe aktarın
- Çalışma zamanında bir model yükleyin: Çıkarım parametrelerinizle birlikte yükleme işlevlerinden birini (dosyaya, ada, URL'ye veya meta verilere göre) çağırın
- Mesaj gönderin: LLM örneğine bir kullanıcı mesajı iletin; model bir yanıt oluştururken token'lar temsilciler aracılığıyla geri akar
- Yanıtı kullanın: Token'ları bir sohbet arayüzünde görüntüleyin, NPC diyaloglarını yönlendirin, dinamik içerik oluşturun veya diğer sistemlere besleyin
Tüm çıkarım işlemleri, özel bir arka plan iş parçacığında çalışır. Geri çağırmalar (token oluşturma, tamamlama, hatalar) oyun iş parçacığında tetiklenir, böylece bunlardan güvenle UI ve oyun durumunu güncelleyebilirsiniz.
Yaygın Kullanım Alanları
- Oyun içi sohbet botları ve asistanlar: Soru-cevap, yardım sistemleri, dinamik eğiticiler
- NPC diyalogları: Konuşma anlık görüntüleri kullanarak karakter başına kalıcı hafızaya sahip sohbet edebilen NPC'ler
- Uzun süreli rol yapma ve anlatı sistemleri: Otomatik özetleme, çok saatlik konuşmaları temel bilgileri kaybetmeden bağlam sınırları içinde tutar
- Prosedürel içerik: Anlık olarak görev açıklamaları, eşya geçmişi, diyalog ağaçları oluşturma
- Çevrimdışı öncelikli uygulamalar: Ağ bağlantısı olmadan LLM yeteneklerine ihtiyaç duyan her şey
Model Depolama ve Paketleme
Modeller, projenizin Content/RuntimeLocalLLM/Models dizininde .gguf dosyaları olarak saklanır. Eklenti, Paketlenecek Ek Varlık Olmayan Dizinler (DirectoriesToAlwaysStageAsNonUFS) ayarını otomatik olarak yapılandırır, böylece model dosyaları paketlenmiş projenizle birlikte gönderilir ve çalışma zamanında standart dosya G/Ç işlemleriyle erişilebilir kalır.
Her modelin ayrıca meta verilerini (görünen ad, aile, varyant, açıklama, parametre sayısı) depolayan bir .json yan dosyası bulunur.
Desteklenen Modeller
Eklenti, GGUF formatındaki herhangi bir modelle çalışır. Editör, tek tıkla indirme için popüler ön tanımlı modellerden oluşan bir katalog sunar ve istediğiniz özel GGUF dosyasını içe aktarabilirsiniz. Yaygın model aileleri şunları içerir:
- Llama (Meta) — 1B, 3B, 8B ve daha büyük
- Mistral / Mixtral — 7B ve daha büyük
- Phi (Microsoft) — 2B, 3B, 4B
- Gemma (Google) — 2B, 7B
- Qwen (Alibaba) — 1.5B, 7B ve daha büyük
- TinyLlama — 1.1B
- Ve daha birçok topluluk modeli
Nice translation! Here's the Turkish version:
Kuantizasyon
Modeller, kalite ile boyut ve hız arasında denge kuran çeşitli niceleme seviyelerinde gelir:
| Nice translation! Here's the Turkish version:
| Kuantizasyon | Kalite | Size | Hız |
|---|---|---|---|
| Q2_K | Alt | En küçük | En hızlı |
| Q4_K_M | Good | Orta | Fast |
| Q5_K_M | Daha iyi | Daha büyük | Orta |
| Q8_0 | High | Büyük | Daha yavaş |
| F16 / F32 | En yüksek | En büyük | En yavaş |
Mobil ve VR cihazlar için, küçük modeller (1B–3B parametre) ile daha düşük niceleme seviyeleri (Q2_K ile Q4_K_M arası) önerilir. Masaüstü için ise mevcut RAM ve CPU/GPU kaynaklarına bağlı olarak daha büyük modeller ve daha yüksek niceleme seviyeleri kullanabilirsiniz.
Ek Kaynaklar
- Get it on Fab
- Ürün web sitesi
- Demo'yu İndir (Windows)
- Video eğitimi
- Eklenti Desteği ve Özel Geliştirme: [email protected] (ekipler ve kuruluşlar için özel çözümler)