Entusiasta executa LLM de 1 trilhão de parâmetros localmente em GPU única com 768GB de memória Intel Optane
Um desenvolvedor alcançou um marco técnico executando Kimi K2.5, um modelo de linguagem de 1 trilhão de parâmetros, em um único sistema usando 768GB de memória DIMM Intel Optane emparelhada com uma GPU.
O setup alcançou aproximadamente 4 tokens por segundo, demonstrando a viabilidade de inferência de modelos de grande escala em hardware de commodities com memória estendida.