Ana içeriğe geç

Genel Bakış

Runtime Local LLM Documentation

Runtime Local LLM, llama.cpp kullanarak büyük dil modellerini tamamen cihaz üzerinde çalıştıran, çalışma zamanında internet bağlantısı gerektirmeyen bir eklentidir. GGUF model dosyalarını destekler ve modelleri yüklemek, mesaj göndermek ve token-token yanıtlar almak için tam bir Blueprint API'si sunar; tüm bunlar arka plan iş parçacığında ve oyun iş parçacığı geri çağrılarıyla gerçekleşir.

Eklenti, Windows, Mac, Linux, Android (Meta Quest ve diğer Android tabanlı platformlar dahil) ve iOS'u destekler.

Temel Özellikler

  • Tamamen çevrimdışı çıkarım: Çalışma zamanında bulut hizmetlerine veya API anahtarlarına gerek yok
  • GGUF model desteği: Herhangi bir GGUF formatındaki modeli yükleme (Llama, Mistral, Phi, Gemma, Qwen, vb.)
  • Güncel llama.cpp: llama.cpp sürümlerine ayak uydurmak için Fab'da düzenli olarak güncellenir, böylece en yeni GGUF model formatları her zaman desteklenir
  • GPU hızlandırma: Windows ve Linux'ta Vulkan, Mac ve iOS'ta Metal, Android ve Meta Quest'te CPU + intrinsikler kullanır
  • Çoklu model yükleme yöntemleri:
    • Yerel bir dosya yolundan yükle
    • Model adına göre yükle (Blueprint'lerde açılır menü seçimi)
    • URL'den indir ve otomatik olarak yükle
    • Modelleri ön belleğe almak için yalnızca indir
  • Token-token akış: Her bir token oluşturulduğunda gerçek zamanlı görüntüleme için alın
  • Async Blueprint düğümleri: Yükleme, mesaj gönderme ve indirme için çıkış delegelerine sahip düğümler
  • Yapılandırılabilir çıkarım parametreleri: Sıcaklık, Top-P, Top-K, tekrar cezası, GPU katman aktarımı, bağlam boyutu, tohum, iş parçacığı sayısı ve sistem istemi
  • Konuşma bağlamı yönetimi: Bağlam sıfırlama desteğiyle çok turlu konuşmaları sürdürün
  • Editör model yöneticisi: Proje ayarlarından doğrudan modellere göz atın, indirin, içe aktarın, silin ve test edin
  • Çapraz platform paketleme: Modeller projenizle birlikte NonUFS evrelemesi yoluyla gönderilir

Nasıl Çalışır

  1. Editörde modelleri yönetin: Önceden tanımlanmış modeller kataloğuna göz atmak, indirmek veya kendi GGUF dosyalarınızı içe aktarmak için eklenti ayarları panelini kullanın
  2. Çalışma zamanında bir model yükleyin: Çıkarım parametrelerinizle birlikte yükleme fonksiyonlarından birini çağırın (dosyaya göre, ada göre, URL'ye göre veya meta verilere göre)
  3. Mesaj gönderin: LLM örneğine bir kullanıcı mesajı iletin; model yanıtı oluştururken token'lar delegeler aracılığıyla geri akar
  4. Yanıtı kullanın: Token'ları bir sohbet arayüzünde görüntüleyin, NPC diyaloğunu yönlendirin, dinamik içerik oluşturun veya diğer sistemlere besleyin

Tüm çıkarım, özel bir arka plan iş parçacığında çalışır. Geri çağrılar (token oluşturma, tamamlama, hatalar) oyun iş parçacığında tetiklenir, böylece UI ve oyun durumunu bunlardan güvenle güncelleyebilirsiniz.

Model Depolama ve Paketleme

Modeller, projenizin Content/RuntimeLocalLLM/Models dizininde .gguf dosyaları olarak saklanır. Eklenti, model dosyalarının paketlenmiş projenizle birlikte gelmesi ve çalışma zamanında standart dosya G/Ç yoluyla erişilebilir kalması için Additional Non-Asset Directories To Copy (DirectoriesToAlwaysStageAsNonUFS) özelliğini otomatik olarak yapılandırır.

Her modelin ayrıca, meta verilerini (görünen ad, aile, varyant, açıklama, parametre sayısı) saklayan bir .json yan dosyası vardır.

Desteklenen Modeller

Eklenti, GGUF formatındaki herhangi bir modelle çalışır. Editör, tek tıklamayla indirme için popüler önceden tanımlanmış modellerin bir kataloğunu sunar ve herhangi bir özel GGUF dosyasını içe aktarabilirsiniz. Yaygın model aileleri şunları içerir:

  • Llama (Meta) — 1B, 3B, 8B, and larger
  • Mistral / Mixtral — 7B and larger
  • Phi (Microsoft) — 2B, 3B, 4B
  • Gemma (Google) — 2B, 7B
  • Qwen (Alibaba) — 1.5B, 7B, and larger
  • TinyLlama — 1.1B
  • And many more community models

Nicemleme

Modeller, kalite ile boyut ve hız arasında ödünleşim sağlayan çeşitli nicemleme seviyelerinde gelir:

NicemlemeKaliteBoyutHız
Q2_KDaha düşükEn küçükEn hızlı
Q4_K_MİyiOrtaHızlı
Q5_K_MDaha iyiDaha büyükOrta düzey
Q8_0YüksekBüyükDaha yavaş
F16 / F32En yüksekEn büyükEn yavaş

Mobil ve VR cihazlar için, kompakt modeller (1B–3B parametre) ile daha küçük nicemlemeler (Q2_K ila Q4_K_M) önerilir. Masaüstü için, mevcut RAM ve CPU/GPU kaynaklarına bağlı olarak daha büyük modeller ve daha yüksek nicemleme seviyeleri kullanabilirsiniz.

Ek Kaynaklar

Join our Discord
online · support