LightKV reduce a la mitad el cache de vision-tokens en LVLMs

Una nueva técnica (LightKV) aborda un problema creciente en modelos de visión-lenguaje: sobrecarga de memoria del cache KV durante la inferencia. Conforme las empresas despliegan modelos multimodales a escala, las restricciones de memoria de GPU se están convirtiendo en un límite fijo en tamaños de batch y capacidad de modelo.

Investigadores de la Universidad Nacional de Singapur publicaron LightKV, una técnica de compresión de cache KV para grandes modelos de visión-lenguaje que reduce a la mitad la sobrecarga de memoria de vision-tokens mientras retiene performance en benchmarks de propósito general. El método aborda un cuello de botella de producción que limita tamaños de batch de GPU en inferencia multimodal.

El problema raíz es estructural. Cuando un LVLM procesa una imagen, la tokeniza en un gran conjunto de vision-tokens almacenados en el cache KV durante toda la etapa de prefill. A diferencia de tokens de texto, los vision-tokens son semánticamente redundantes — parches cercanos codifican información espacial similar — pero los stacks de inferencia estándar ignoran esa redundancia. El resultado es presión de memoria de GPU escalando con resolución de imagen y longitud de secuencia, no contenido informacional real.

LightKV aborda esto a través de message passing entre modalidades guiado por el prompt de texto acompañante. En lugar de comprimir vision-tokens aisladamente, LightKV usa el texto de consulta para identificar regiones visuales semánticamente relevantes, luego progresivamente agrega y descarta tokens de bajo signal durante prefill. La compresión es consciente de la tarea: la misma imagen en cache para una pregunta de layout se comprime diferentemente que para una pregunta de color o conteo. El paper evalúa LightKV en ocho LVLMs de código abierto a través de ocho benchmarks públicos incluyendo MME y SeedBench.

El resultado principal: reteniendo solo el 55% de los vision-tokens originales, LightKV reduce a la mitad el cache KV de vision-tokens y reduce computación hasta 40%, sin degradación significativa en scores de benchmark. Para operadores de inferencia empresarial, estos números se traducen directamente en throughput y costo. Una reducción del 50% en la huella del cache KV de vision-tokens permite tamaños de batch más grandes en hardware existente, ventanas de contexto efectivo más largas, o ambas — sin reentrenamiento de modelo o trade-offs de cuantización.

Las implicaciones arquitectónicas importan para equipos ejecutando cargas de trabajo multimodales en asignaciones de GPU fijas. La memoria del cache KV es típicamente la restricción difícil en el manejo de solicitudes concurrentes, no pesos o activaciones. Cualquier técnica que la comprima sin regresión de precisión se compone con cuantización y decodificación especulativa. El diseño condicionado al prompt significa que LightKV es agnóstico al modelo en el nivel de arquitectura; se integra en cualquier LVLM que siga la división prefill-decode estándar, cubriendo las familias principales de peso abierto.

La evaluación es impulsada por benchmarks; tareas de producción como parsing de documentos, QA visual de largo formulario, y razonamiento multi-imagen pueden exponer brechas de precisión no capturadas por los scores agregados de MME o SeedBench. La cifra de 55%-retención es un único punto operacional elegido por los autores; los equipos deben ajustar la tasa de compresión contra sus propios umbrales de calidad, requiriendo perfilado en datos específicos del dominio. La complejidad de integración es no trivial: el message passing entre modalidades durante prefill agrega trabajo de ingeniería a nivel de kernel fuera de los frameworks de inferencia estándar.

El paper no reporta números de latencia o throughput directamente, solo reducción de memoria y FLOPs. Los equipos evaluando LightKV para producción deben tratar la afirmación de reducción de computación del 40% como un techo y medir latencia end-to-end en infraestructura de serving real.

Conforme las ventanas de contexto multimodal crecen y los casos de uso empresariales demandan más imágenes por solicitud, la sobrecarga del cache KV se compone. LightKV es una solución dirigida para una restricción específica con números limpios que merecen benchmarking serio antes del próximo ciclo de adquisición de hardware.

Sources

LightKV halves vision-token KV cache size with only 55% of original vision tokens retained
"with only 55% of the original vision tokens, LightKV (a) halves the vision-token KV cache size"
arxiv.org ↗
LightKV reduces computation by up to 40%
"reduces computation by up to 40%"
arxiv.org ↗
LightKV preserves general-purpose performance and outperforms existing baselines
"preserves general-purpose performance while significantly outperforming existing baselines"
arxiv.org ↗
LightKV uses cross-modality message passing guided by text prompts to compress vision tokens during prefill
"LightKV employs cross-modality message passing to aggregate informative messages across vision tokens and progressively compress them during prefill"
arxiv.org ↗
LightKV was evaluated on eight open-source LVLMs across eight public benchmark datasets including MME and SeedBench
"We evaluate LightKV on eight open-source LVLMs across eight public benchmark datasets, e.g., MME and SeedBench"
arxiv.org ↗
LightKV's prompt-aware guidance distinguishes it from prior vision-only compression strategies
"This prompt-aware guidance distinguishes our method from prior vision-only compression strategies"
arxiv.org ↗
KV cache in LVLMs introduces substantial GPU memory overhead due to the large number of vision tokens processed during prefill
"its direct adoption in LVLMs introduces substantial GPU memory overhead due to the large number of vision tokens processed during the prefill stage"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

LightKV reduce a la mitad el cache de vision-tokens en LVLMs

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.