LightKV reduz pela metade o cache de vision-tokens em LVLMs

Uma nova técnica (LightKV) aborda um problema crescente em modelos de visão-linguagem: overhead de memória do cache KV durante a inferência. Conforme empresas implantam modelos multimodais em escala, as restrições de memória de GPU estão se tornando um limite rígido em tamanhos de batch e capacidade de modelo.

Pesquisadores da Universidade Nacional de Singapura publicaram LightKV, uma técnica de compressão de cache KV para grandes modelos de visão-linguagem que reduz pela metade o overhead de memória de vision-tokens enquanto retém performance em benchmarks de uso geral. O método aborda um gargalo de produção que limita tamanhos de batch de GPU em inferência multimodal.

O problema raiz é estrutural. Quando um LVLM processa uma imagem, tokeniza essa imagem em um grande conjunto de vision-tokens armazenados no cache KV durante toda a fase de prefill. Diferentemente de tokens de texto, vision-tokens são semanticamente redundantes — patches próximos codificam informações espaciais similares — mas stacks de inferência padrão ignoram essa redundância. O resultado é pressão de memória de GPU escalando com resolução de imagem e comprimento de sequência, não conteúdo informacional real.

LightKV aborda isso através de message passing entre modalidades orientado pelo prompt de texto acompanhante. Em vez de comprimir vision-tokens isoladamente, LightKV usa o texto de query para identificar regiões visuais semanticamente relevantes, depois progressivamente agrega e descarta tokens de baixo sinal durante prefill. A compressão é consciente da tarefa: a mesma imagem em cache para uma pergunta de layout é comprimida diferentemente que para uma pergunta de cor ou contagem. O paper avalia LightKV em oito LVLMs de código aberto em oito benchmarks públicos incluindo MME e SeedBench.

O resultado principal: mantendo apenas 55% dos vision-tokens originais, LightKV reduz pela metade o cache KV de vision-tokens e reduz computação em até 40%, sem degradação significativa em scores de benchmark. Para operadores de inferência empresarial, esses números se traduzem diretamente em throughput e custo. Uma redução de 50% na pegada do cache KV de vision-tokens permite tamanhos de batch maiores em hardware existente, janelas de contexto efetivo mais longas, ou ambos — sem retreinamento de modelo ou tradeoffs de quantização.

As implicações arquiteturais importam para times rodando cargas multimodais em alocações de GPU fixas. Memória de cache KV é tipicamente a restrição difícil no tratamento de requisições concorrentes, não pesos ou ativações. Qualquer técnica que a comprima sem regressão de acurácia se compõe com quantização e decodificação especulativa. O design condicionado ao prompt significa que LightKV é agnóstico ao modelo em nível de arquitetura; se integra em qualquer LVLM que siga o split prefill-decode padrão, cobrindo as famílias open-weight principais.

A avaliação é dirigida por benchmarks; tarefas de produção como parsing de documento, QA visual de longa forma, e raciocínio multi-imagem podem expor gaps de acurácia não capturados por scores agregados de MME ou SeedBench. A figura de 55%-retenção é um único ponto operacional escolhido pelos autores; times devem tunar a taxa de compressão contra seus próprios thresholds de qualidade, requerendo profiling em dados domain-specific. Complexidade de integração é não-trivial: message passing entre modalidades durante prefill adiciona trabalho de engenharia em nível de kernel fora de frameworks de inferência padrão.

O paper não reporta números de latência ou throughput diretamente, apenas redução de memória e FLOPs. Times avaliando LightKV para produção devem tratar a reivindicação de redução de computação de 40% como um teto e medir latência end-to-end em infraestrutura real de serving.

Conforme janelas de contexto multimodal crescem e casos de uso empresarial demandam mais imagens por requisição, overhead do cache KV se compõe. LightKV é um fix direcionado para uma restrição específica com números limpos merecedores de benchmarking sério antes do próximo ciclo de procura de hardware.

Sources

LightKV halves vision-token KV cache size with only 55% of original vision tokens retained
"with only 55% of the original vision tokens, LightKV (a) halves the vision-token KV cache size"
arxiv.org ↗
LightKV reduces computation by up to 40%
"reduces computation by up to 40%"
arxiv.org ↗
LightKV preserves general-purpose performance and outperforms existing baselines
"preserves general-purpose performance while significantly outperforming existing baselines"
arxiv.org ↗
LightKV uses cross-modality message passing guided by text prompts to compress vision tokens during prefill
"LightKV employs cross-modality message passing to aggregate informative messages across vision tokens and progressively compress them during prefill"
arxiv.org ↗
LightKV was evaluated on eight open-source LVLMs across eight public benchmark datasets including MME and SeedBench
"We evaluate LightKV on eight open-source LVLMs across eight public benchmark datasets, e.g., MME and SeedBench"
arxiv.org ↗
LightKV's prompt-aware guidance distinguishes it from prior vision-only compression strategies
"This prompt-aware guidance distinguishes our method from prior vision-only compression strategies"
arxiv.org ↗
KV cache in LVLMs introduces substantial GPU memory overhead due to the large number of vision tokens processed during prefill
"its direct adoption in LVLMs introduces substantial GPU memory overhead due to the large number of vision tokens processed during the prefill stage"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

LightKV reduz pela metade o cache de vision-tokens em LVLMs

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.