Resumen

Runtime Local LLM es un plugin que ejecuta modelos de lenguaje grandes completamente en el dispositivo utilizando llama.cpp, sin necesidad de conexión a internet durante la ejecución. Es compatible con archivos de modelo GGUF y proporciona una API completa de Blueprint para cargar modelos, enviar mensajes y recibir respuestas token por token, todo en un hilo de fondo con callbacks en el hilo del juego.
El plugin es compatible con Windows, Mac, Linux, Android (incluyendo Meta Quest y otras plataformas basadas en Android) e iOS.
Características principales
- Inferencia completamente offline: Sin servicios en la nube ni claves de API en tiempo de ejecución
- Soporte para modelos GGUF: Carga cualquier modelo en formato GGUF (Llama, Mistral, Phi, Gemma, Qwen, etc.)
- llama.cpp actualizado: Se actualiza regularmente en Fab para mantenerse al día con los lanzamientos de llama.cpp, por lo que los formatos de modelo GGUF más recientes siempre son compatibles
- Aceleración por GPU: Utiliza Vulkan en Windows y Linux, Metal en Mac e iOS, y CPU + intrínsecos en Android y Meta Quest
- Múltiples métodos de carga de modelos:
- Cargar desde una ruta de archivo local
- Cargar por nombre de modelo (selección desplegable en Blueprints)
- Descargar desde URL y cargar automáticamente
- Solo descarga para pre-caching de modelos
- Streaming token por token: Recibe cada token a medida que se genera para mostrarlo en tiempo real
- Nodos Blueprint asíncronos: Nodos con delegados de salida para cargar, enviar mensajes y descargar
- Parámetros de inferencia configurables: Temperature, Top-P, Top-K, penalización de repetición, desc
Join our Discord
online · support