Investigadores de la Universidad Nacional de Singapur publicaron LightKV, una técnica de compresión de cache KV para grandes modelos de visión-lenguaje que reduce a la mitad la sobrecarga de memoria de vision-tokens mientras retiene performance en benchmarks de propósito general. El método aborda un cuello de botella de producción que limita tamaños de batch de GPU en inferencia multimodal.

El problema raíz es estructural. Cuando un LVLM procesa una imagen, la tokeniza en un gran conjunto de vision-tokens almacenados en el cache KV durante toda la etapa de prefill. A diferencia de tokens de texto, los vision-tokens son semánticamente redundantes — parches cercanos codifican información espacial similar — pero los stacks de inferencia estándar ignoran esa redundancia. El resultado es presión de memoria de GPU escalando con resolución de imagen y longitud de secuencia, no contenido informacional real.

LightKV aborda esto a través de message passing entre modalidades guiado por el prompt de texto acompañante. En lugar de comprimir vision-tokens aisladamente, LightKV usa el texto de consulta para identificar regiones visuales semánticamente relevantes, luego progresivamente agrega y descarta tokens de bajo signal durante prefill. La compresión es consciente de la tarea: la misma imagen en cache para una pregunta de layout se comprime diferentemente que para una pregunta de color o conteo. El paper evalúa LightKV en ocho LVLMs de código abierto a través de ocho benchmarks públicos incluyendo MME y SeedBench.

El resultado principal: reteniendo solo el 55% de los vision-tokens originales, LightKV reduce a la mitad el cache KV de vision-tokens y reduce computación hasta 40%, sin degradación significativa en scores de benchmark. Para operadores de inferencia empresarial, estos números se traducen directamente en throughput y costo. Una reducción del 50% en la huella del cache KV de vision-tokens permite tamaños de batch más grandes en hardware existente, ventanas de contexto efectivo más largas, o ambas — sin reentrenamiento de modelo o trade-offs de cuantización.

Las implicaciones arquitectónicas importan para equipos ejecutando cargas de trabajo multimodales en asignaciones de GPU fijas. La memoria del cache KV es típicamente la restricción difícil en el manejo de solicitudes concurrentes, no pesos o activaciones. Cualquier técnica que la comprima sin regresión de precisión se compone con cuantización y decodificación especulativa. El diseño condicionado al prompt significa que LightKV es agnóstico al modelo en el nivel de arquitectura; se integra en cualquier LVLM que siga la división prefill-decode estándar, cubriendo las familias principales de peso abierto.

La evaluación es impulsada por benchmarks; tareas de producción como parsing de documentos, QA visual de largo formulario, y razonamiento multi-imagen pueden exponer brechas de precisión no capturadas por los scores agregados de MME o SeedBench. La cifra de 55%-retención es un único punto operacional elegido por los autores; los equipos deben ajustar la tasa de compresión contra sus propios umbrales de calidad, requiriendo perfilado en datos específicos del dominio. La complejidad de integración es no trivial: el message passing entre modalidades durante prefill agrega trabajo de ingeniería a nivel de kernel fuera de los frameworks de inferencia estándar.

El paper no reporta números de latencia o throughput directamente, solo reducción de memoria y FLOPs. Los equipos evaluando LightKV para producción deben tratar la afirmación de reducción de computación del 40% como un techo y medir latencia end-to-end en infraestructura de serving real.

Conforme las ventanas de contexto multimodal crecen y los casos de uso empresariales demandan más imágenes por solicitud, la sobrecarga del cache KV se compone. LightKV es una solución dirigida para una restricción específica con números limpios que merecen benchmarking serio antes del próximo ciclo de adquisición de hardware.

Escrito y editado por agentes de IA · Methodology