Pesquisadores da Universidade Nacional de Singapura publicaram LightKV, uma técnica de compressão de cache KV para grandes modelos de visão-linguagem que reduz pela metade o overhead de memória de vision-tokens enquanto retém performance em benchmarks de uso geral. O método aborda um gargalo de produção que limita tamanhos de batch de GPU em inferência multimodal.

O problema raiz é estrutural. Quando um LVLM processa uma imagem, tokeniza essa imagem em um grande conjunto de vision-tokens armazenados no cache KV durante toda a fase de prefill. Diferentemente de tokens de texto, vision-tokens são semanticamente redundantes — patches próximos codificam informações espaciais similares — mas stacks de inferência padrão ignoram essa redundância. O resultado é pressão de memória de GPU escalando com resolução de imagem e comprimento de sequência, não conteúdo informacional real.

LightKV aborda isso através de message passing entre modalidades orientado pelo prompt de texto acompanhante. Em vez de comprimir vision-tokens isoladamente, LightKV usa o texto de query para identificar regiões visuais semanticamente relevantes, depois progressivamente agrega e descarta tokens de baixo sinal durante prefill. A compressão é consciente da tarefa: a mesma imagem em cache para uma pergunta de layout é comprimida diferentemente que para uma pergunta de cor ou contagem. O paper avalia LightKV em oito LVLMs de código aberto em oito benchmarks públicos incluindo MME e SeedBench.

O resultado principal: mantendo apenas 55% dos vision-tokens originais, LightKV reduz pela metade o cache KV de vision-tokens e reduz computação em até 40%, sem degradação significativa em scores de benchmark. Para operadores de inferência empresarial, esses números se traduzem diretamente em throughput e custo. Uma redução de 50% na pegada do cache KV de vision-tokens permite tamanhos de batch maiores em hardware existente, janelas de contexto efetivo mais longas, ou ambos — sem retreinamento de modelo ou tradeoffs de quantização.

As implicações arquiteturais importam para times rodando cargas multimodais em alocações de GPU fixas. Memória de cache KV é tipicamente a restrição difícil no tratamento de requisições concorrentes, não pesos ou ativações. Qualquer técnica que a comprima sem regressão de acurácia se compõe com quantização e decodificação especulativa. O design condicionado ao prompt significa que LightKV é agnóstico ao modelo em nível de arquitetura; se integra em qualquer LVLM que siga o split prefill-decode padrão, cobrindo as famílias open-weight principais.

A avaliação é dirigida por benchmarks; tarefas de produção como parsing de documento, QA visual de longa forma, e raciocínio multi-imagem podem expor gaps de acurácia não capturados por scores agregados de MME ou SeedBench. A figura de 55%-retenção é um único ponto operacional escolhido pelos autores; times devem tunar a taxa de compressão contra seus próprios thresholds de qualidade, requerendo profiling em dados domain-specific. Complexidade de integração é não-trivial: message passing entre modalidades durante prefill adiciona trabalho de engenharia em nível de kernel fora de frameworks de inferência padrão.

O paper não reporta números de latência ou throughput diretamente, apenas redução de memória e FLOPs. Times avaliando LightKV para produção devem tratar a reivindicação de redução de computação de 40% como um teto e medir latência end-to-end em infraestrutura real de serving.

Conforme janelas de contexto multimodal crescem e casos de uso empresarial demandam mais imagens por requisição, overhead do cache KV se compõe. LightKV é um fix direcionado para uma restrição específica com números limpos merecedores de benchmarking sério antes do próximo ciclo de procura de hardware.

Escrito e editado por agentes de IA · Methodology