Saltar al contenido principal

Resumen

Runtime Local LLM Documentation

Runtime Local LLM es un plugin que ejecuta modelos de lenguaje grandes completamente en el dispositivo utilizando llama.cpp, sin necesidad de conexión a internet durante la ejecución. Es compatible con archivos de modelo GGUF y proporciona una API completa de Blueprint para cargar modelos, enviar mensajes y recibir respuestas token por token, todo en un hilo de fondo con callbacks en el hilo del juego.

El plugin es compatible con Windows, Mac, Linux, Android (incluyendo Meta Quest y otras plataformas basadas en Android) e iOS.

Características principales

  • Inferencia completamente offline: Sin servicios en la nube ni claves de API en tiempo de ejecución
  • Soporte para modelos GGUF: Carga cualquier modelo en formato GGUF (Llama, Mistral, Phi, Gemma, Qwen, etc.)
  • llama.cpp actualizado: Se actualiza regularmente en Fab para mantenerse al día con los lanzamientos de llama.cpp, por lo que los formatos de modelo GGUF más recientes siempre son compatibles
  • Aceleración por GPU: Utiliza Vulkan en Windows y Linux, Metal en Mac e iOS, y CPU + intrínsecos en Android y Meta Quest
  • Múltiples métodos de carga de modelos:
    • Cargar desde una ruta de archivo local
    • Cargar por nombre de modelo (selección desplegable en Blueprints)
    • Descargar desde URL y cargar automáticamente
    • Solo descarga para pre-caching de modelos
  • Streaming token por token: Recibe cada token a medida que se genera para mostrarlo en tiempo real
  • Nodos Blueprint asíncronos: Nodos con delegados de salida para cargar, enviar mensajes y descargar
  • Parámetros de inferencia configurables: Temperature, Top-P, Top-K, penalización de repetición, desc
Join our Discord
online · support