概述

Runtime Local LLM 是一個外掛程式,它使用 llama.cpp 在裝置上完全本地執行大型語言模型,運行時無需網路連線。它支援 GGUF 模型檔案,並提供完整的 Blueprint API,用於載入模型、發送訊息以及逐個 Token 接收回應,所有操作都在背景執行緒上進行,並透過遊戲執行緒回呼。
此外掛程式支援 Windows、Mac、Linux、Android(包括 Meta Quest 和其他基於 Android 的平台)以及 iOS。
主要功能
- 完全離線推論:運行時無需雲端服務或 API 金鑰
- GGUF 模型支援:載入任何 GGUF 格式的模型(Llama、Mistral、Phi、Gemma、Qwen 等)
- 最新的 llama.cpp:在 Fab 上定期更新以跟上 llama.cpp 的發佈節奏,因此始終支援最新的 GGUF 模型格式
- GPU 加速:在 Windows 和 Linux 上使用 Vulkan,在 Mac 和 iOS 上使用 Metal,在 Android 和 Meta Quest 上使用 CPU + 內建函式
- 多種模型載入方式:
- 從本地檔案路徑載入
- 依模型名稱載入(在 Blueprints 中下拉選取)
- 從 URL 下載並自動載入
- 僅下載以預先快取模型
- 逐個 Token 串流:在生成每個 Token 時即時接收,用於即時顯示
- 非同步 Blueprint 節點:具有輸出委派的節點,用於載入、發送訊息和下載
- 可設定的推論參數:溫度、Top-P、Top-K、重複懲罰、GPU 層卸載、上下文大小、隨機種子、執行緒數和系統提示
- 對話上下文管理:維護多輪對話,並支援上下文重置
- 編輯器模型管理器:直接在專案設定中瀏覽、下載、匯入、刪除和測試模型
- 跨平台打包:模型透過 NonUFS 暫存與您的專案一起發布
運作原理
- 在編輯器中管理模型:使用外掛程式設定面板瀏覽預定義模型的目錄、下載它們,或匯入您自己的 GGUF 檔案
- 在運行時載入模型:使用您的推論參數呼叫其中一個載入函式(依檔案、依名稱、依 URL 或依元資料)
- 發送訊息:將使用者訊息傳遞給 LLM 實例;當模型生成回應時,Token 會透過委派串流回來
- 使用回應:在聊天 UI 中顯示 Token、驅動 NPC 對話、生成動態內容,或饋送到其他系統
所有推論都在專用的背景執行緒上運行。回呼(Token 生成、完成、錯誤)在遊戲執行緒上觸發,因此您可以安全地從中更新 UI 和遊戲狀態。
模型儲存與打包
模型以 .gguf 檔案形式儲存在您專案的 Content/RuntimeLocalLLM/Models 目錄中。此外掛程式會自動設定 要複製的其他非資產目錄(DirectoriesToAlwaysStageAsNonUFS),以便模型檔案隨您打包的專案一起發布,並在運行時仍可透過標準檔案 I/O 存取。
每個模型還有一個 .json 側車檔案,用於儲存其元資料(顯示名稱、系列、變體、描述、參數數量)。
支援的模型
此外掛程式可與任何 GGUF 格式的模型搭配使用。編輯器提供了一個流行的預定義模型目錄,可一鍵下載,您也可以匯入任何自訂的 GGUF 檔案。常見的模型系列包括:
- Llama (Meta) — 1B、3B、8B 及更大
- Mistral / Mixtral — 7B 及更大
- Phi (Microsoft) — 2B、3B、4B
- Gemma (Google) — 2B、7B
- Qwen (Alibaba) — 1.5B、7B 及更大
- TinyLlama — 1.1B
- 以及更多社群模型
量化
模型有各種量化等級,可在品質、大小和速度之間進行取捨:
| 量化 | 品質 | 大小 | 速度 |
|---|---|---|---|
| Q2_K | 較低 | 最小 | 最快 |
| Q4_K_M | 良好 | 中等 | 快 |
| Q5_K_M | 較好 | 較大 | 中等 |
| Q8_0 | 高 | 大 | 較慢 |
| F16 / F32 | 最高 | 最大 | 最慢 |
對於行動裝置和 VR 裝置,建議使用較小的量化(Q2_K 到 Q4_K_M)搭配緊湊型模型(1B–3B 參數)。對於桌上型電腦,您可以根據可用的 RAM 和 CPU/GPU 資源,使用更大的模型和更高的量化等級。
其他資源
- 在 Fab 上取得
- 產品網站
- 下載示範 (Windows)
- 影片教學
- 外掛程式支援與客製化開發:[email protected](為團隊和組織提供的量身訂製解決方案)
Join our Discord
online · support