Entusiasta ejecuta LLM de 1 billón de parámetros localmente en GPU única con 768GB de memoria Intel Optane
Un desarrollador logró un hito técnico ejecutando Kimi K2.5, un modelo de lenguaje de 1 billón de parámetros, en un único sistema usando 768GB de memoria DIMM Intel Optane emparejada con una GPU.
La configuración logró aproximadamente 4 tokens por segundo, demostrando la viabilidad de inferencia de modelos de gran escala en hardware de commodities con memoria extendida.