Resumen

Runtime Local LLM es un plugin que ejecuta modelos de lenguaje grandes completamente en el dispositivo usando llama.cpp, sin necesidad de conexión a internet en tiempo de ejecución. Es compatible con archivos de modelo GGUF y proporciona una API completa de Blueprint para cargar modelos, enviar mensajes y recibir respuestas token por token, todo en un hilo en segundo plano con devoluciones de llamada en el hilo del juego.
El plugin es compatible con Windows, Mac, Linux, Android (incluyendo Meta Quest y otras plataformas basadas en Android), y iOS.
Características principales
- Inferencia completamente offline: Sin servicios en la nube ni claves API en tiempo de ejecución
- Soporte de modelos GGUF: Carga cualquier modelo en formato GGUF (Llama, Mistral, Phi, Gemma, Qwen, etc.)
- llama.cpp actualizado: Se actualiza regularmente en Fab para mantenerse al día con los lanzamientos de llama.cpp, por lo que siempre se admiten los formatos de modelo GGUF más recientes
- Aceleración por GPU: Usa Vulkan en Windows y Linux, Metal en Mac y iOS, y CPU con intrínsecos en Android y Meta Quest
- Múltiples métodos de carga de modelos:
- Cargar desde una ruta de archivo local
- Cargar por nombre de modelo (selección desplegable en Blueprints)
- Descargar desde una URL y cargar automáticamente
- Solo descarga para modelos de precaché
- Transmisión token por token: Recibe cada token a medida que se genera para visualización en tiempo real
- Nodos Blueprint asíncronos: Nodos con delegados de salida para cargar, enviar mensajes y descargar
- Parámetros de inferencia configurables: Temperatura, Top-P, Top-K, penalización por repetición, descarga de capas de GPU, tamaño de contexto, semilla, número de hilos y prompt del sistema
- Gestión de conversaciones: Conversaciones de múltiples turnos con reinicio de contexto, guardar/cargar en disco, instantáneas en memoria y resumen automático para chats de larga duración
- Gestor de modelos del editor: Navega, descarga, importa, elimina y prueba modelos directamente en la configuración del proyecto
- Empaquetado multiplataforma: Los modelos se envían con tu proyecto mediante el staging de NonUFS
Cómo Funciona
- Gestionar modelos en el editor: Use el panel de configuración del plugin para explorar un catálogo de modelos predefinidos, descargarlos o importar sus propios archivos GGUF
- Cargar un modelo en tiempo de ejecución: Llame a una de las funciones de carga (por archivo, por nombre, por URL o por metadatos) con sus parámetros de inferencia
- Enviar mensajes: Pase un mensaje de usuario a la instancia del LLM; los tokens se transmiten de vuelta a través de delegados mientras el modelo genera una respuesta
- Usar la respuesta: Muestre los tokens en una interfaz de chat, dirija el diálogo de NPC, genere contenido dinámico o alimente otros sistemas
Toda la inferencia se ejecuta en un hilo de fondo dedicado. Las devoluciones de llamada (generación de tokens, finalización, errores) se activan en el hilo del juego, por lo que puedes actualizar de forma segura la interfaz de usuario y el estado del juego desde ellas.
Casos de uso comunes
- Chatbots y asistentes dentro del juego: Preguntas y respuestas, sistemas de ayuda, tutoriales dinámicos
- Diálogo de NPC: NPC conversacionales con memoria persistente por personaje usando instantáneas de conversación
- Sistemas de rol y narrativa de larga duración: La síntesis automática mantiene conversaciones de varias horas dentro de los límites de contexto sin perder datos clave
- Contenido procedural: Genera descripciones de misiones, historias de objetos y árboles de diálogo sobre la marcha
- Aplicaciones offline-first: Cualquier cosa que necesite capacidades de LLM sin conexión a la red
Almacenamiento y Empaquetado de Modelos
Los modelos se almacenan como archivos .gguf en el directorio Content/RuntimeLocalLLM/Models de tu proyecto. El plugin configura automáticamente Directorios adicionales sin activos para copiar (DirectoriesToAlwaysStageAsNonUFS) para que los archivos de modelo se incluyan con tu proyecto empaquetado y permanezcan accesibles mediante E/S de archivos estándar en tiempo de ejecución.
Cada modelo también tiene un archivo auxiliar .json que almacena sus metadatos (nombre para mostrar, familia, variante, descripción, cantidad de parámetros).
Modelos compatibles
El plugin funciona con cualquier modelo en formato GGUF. El editor proporciona un catálogo de modelos predefinidos populares para descargar con un solo clic, y puedes importar cualquier archivo GGUF personalizado. Las familias de modelos comunes incluyen:
- Llama (Meta) — 1B, 3B, 8B y superiores
- Mistral / Mixtral — 7B y superiores
- Phi (Microsoft) — 2B, 3B, 4B
- Gemma (Google) — 2B, 7B
- Qwen (Alibaba) — 1.5B, 7B y superiores
- TinyLlama — 1.1B
- Y muchos más modelos de la comunidad
Cuantización
Los modelos vienen en varios niveles de cuantización que intercambian calidad por tamaño y velocidad:
| Cuantización | Calidad | Size | Velocidad |
|---|---|---|---|
| Q2_K | Inferior | Más pequeño | Más rápido |
| Q4_K_M | Good | Medio | Fast |
| Q5_K_M | Mejor | Más grande | Moderado |
| Q8_0 | High | Grande | Más lento |
| F16 / F32 | Más alto | Más grande | Más lento |
Para dispositivos móviles y de realidad virtual, se recomiendan cuantizaciones más pequeñas (Q2_K a Q4_K_M) con modelos compactos (1B–3B parámetros). Para escritorio, puedes usar modelos más grandes y niveles de cuantización más altos según la RAM y los recursos de CPU/GPU disponibles.
Recursos Adicionales
- Get it on Fab
- Sitio web del producto
- Descargar demo (Windows)
- Tutorial en video
- Soporte de plugins y desarrollo personalizado: [email protected] (soluciones a medida para equipos y organizaciones)