跳至主要内容

概述

Runtime Local LLM 文件

Runtime Local LLM 是一個外掛程式,它使用 llama.cpp 在裝置上完全本地執行大型語言模型,運行時無需網路連線。它支援 GGUF 模型檔案,並提供完整的 Blueprint API,用於載入模型、發送訊息以及逐個 Token 接收回應,所有操作都在背景執行緒上進行,並透過遊戲執行緒回呼。

此外掛程式支援 WindowsMacLinuxAndroid(包括 Meta Quest 和其他基於 Android 的平台)以及 iOS

主要功能

  • 完全離線推論:運行時無需雲端服務或 API 金鑰
  • GGUF 模型支援:載入任何 GGUF 格式的模型(Llama、Mistral、Phi、Gemma、Qwen 等)
  • 最新的 llama.cpp:在 Fab 上定期更新以跟上 llama.cpp 的發佈節奏,因此始終支援最新的 GGUF 模型格式
  • GPU 加速:在 Windows 和 Linux 上使用 Vulkan,在 Mac 和 iOS 上使用 Metal,在 Android 和 Meta Quest 上使用 CPU + 內建函式
  • 多種模型載入方式
    • 從本地檔案路徑載入
    • 依模型名稱載入(在 Blueprints 中下拉選取)
    • 從 URL 下載並自動載入
    • 僅下載以預先快取模型
  • 逐個 Token 串流:在生成每個 Token 時即時接收,用於即時顯示
  • 非同步 Blueprint 節點:具有輸出委派的節點,用於載入、發送訊息和下載
  • 可設定的推論參數:溫度、Top-P、Top-K、重複懲罰、GPU 層卸載、上下文大小、隨機種子、執行緒數和系統提示
  • 對話上下文管理:維護多輪對話,並支援上下文重置
  • 編輯器模型管理器:直接在專案設定中瀏覽、下載、匯入、刪除和測試模型
  • 跨平台打包:模型透過 NonUFS 暫存與您的專案一起發布

運作原理

  1. 在編輯器中管理模型:使用外掛程式設定面板瀏覽預定義模型的目錄、下載它們,或匯入您自己的 GGUF 檔案
  2. 在運行時載入模型:使用您的推論參數呼叫其中一個載入函式(依檔案、依名稱、依 URL 或依元資料)
  3. 發送訊息:將使用者訊息傳遞給 LLM 實例;當模型生成回應時,Token 會透過委派串流回來
  4. 使用回應:在聊天 UI 中顯示 Token、驅動 NPC 對話、生成動態內容,或饋送到其他系統

所有推論都在專用的背景執行緒上運行。回呼(Token 生成、完成、錯誤)在遊戲執行緒上觸發,因此您可以安全地從中更新 UI 和遊戲狀態。

模型儲存與打包

模型以 .gguf 檔案形式儲存在您專案的 Content/RuntimeLocalLLM/Models 目錄中。此外掛程式會自動設定 要複製的其他非資產目錄DirectoriesToAlwaysStageAsNonUFS),以便模型檔案隨您打包的專案一起發布,並在運行時仍可透過標準檔案 I/O 存取。

每個模型還有一個 .json 側車檔案,用於儲存其元資料(顯示名稱、系列、變體、描述、參數數量)。

支援的模型

此外掛程式可與任何 GGUF 格式的模型搭配使用。編輯器提供了一個流行的預定義模型目錄,可一鍵下載,您也可以匯入任何自訂的 GGUF 檔案。常見的模型系列包括:

  • Llama (Meta) — 1B、3B、8B 及更大
  • Mistral / Mixtral — 7B 及更大
  • Phi (Microsoft) — 2B、3B、4B
  • Gemma (Google) — 2B、7B
  • Qwen (Alibaba) — 1.5B、7B 及更大
  • TinyLlama — 1.1B
  • 以及更多社群模型

量化

模型有各種量化等級,可在品質、大小和速度之間進行取捨:

量化品質大小速度
Q2_K較低最小最快
Q4_K_M良好中等
Q5_K_M較好較大中等
Q8_0較慢
F16 / F32最高最大最慢

對於行動裝置和 VR 裝置,建議使用較小的量化(Q2_K 到 Q4_K_M)搭配緊湊型模型(1B–3B 參數)。對於桌上型電腦,您可以根據可用的 RAM 和 CPU/GPU 資源,使用更大的模型和更高的量化等級。

其他資源

Join our Discord
online · support