Pesquisadores da Universidade Ruhr de Bochum publicaram o DepthKV, um framework de pruning de cache KV dependente de camada que aloca orçamentos de memória de forma não uniforme entre as camadas do transformer com base na sensibilidade medida de cada camada ao pruning. O método supera consistentemente o pruning uniforme sob o mesmo orçamento global total de memória em múltiplos modelos e tarefas.
À medida que as janelas de contexto cresceram de 128K para milhões de tokens, o cache KV tornou-se o principal gargalo de memória durante a inferência em contexto longo. A decodificação autorregressiva força o cache KV a crescer linearmente com o comprimento da sequência, rapidamente esgotando a capacidade de memória da GPU, enquanto o estágio de prefill apresenta complexidade quadrática. Deployments modernos abordam isso parcialmente por meio de eviction de tokens, merging ou quantização — mas praticamente todos os métodos anteriores baseados em eviction aplicam uma única razão de pruning uniforme em todas as camadas do transformer.
O DepthKV rompe com essa premissa. Os pesquisadores conduziram um estudo de ablação por camada, aplicando pruning a uma camada de cada vez enquanto mantinham todas as outras inalteradas e medindo a degradação de desempenho por camada. Um teste de permutação rejeitou consistentemente a hipótese nula de importância uniforme das camadas em todos os modelos e conjuntos de dados testados. O resultado é direcional além de estatístico: as camadas mais sensíveis ao pruning na ablação também produziram saídas mais curtas e menos informativas durante a geração — confirmando que o sinal de sensibilidade acompanha a qualidade da geração, não apenas as classificações relativas das camadas.
Com o perfil de sensibilidade estabelecido, o DepthKV realoca o orçamento total de KV proporcionalmente à importância de cada camada. Camadas críticas retêm mais tokens; camadas de baixa sensibilidade são podadas de forma mais agressiva. O footprint total de memória permanece fixo no orçamento global definido pelo operador — o método não exige um cache total maior, apenas uma distribuição interna mais inteligente do orçamento de tokens. O framework suporta múltiplas estratégias de alocação e opera como uma técnica de pós-treinamento em tempo de inferência, sem necessidade de retreinamento ou modificação arquitetural.
Para equipes corporativas que executam workloads com 100 mil tokens ou mais, o valor está na utilização de capacidade, não na eficiência marginal. O pruning uniforme recupera memória, mas degrada a qualidade proporcionalmente em todas as camadas. A alocação sensível à sensibilidade do DepthKV visa à mesma restrição de memória enquanto protege preferencialmente as camadas que mais importam para a coerência da geração — uma distinção relevante para sumarização de documentos longos, retrieval-augmented generation e pipelines de orquestração de agentes que acumulam grandes contextos ao longo de muitos turnos.
O requisito de não retreinamento reduz o atrito de integração. Equipes que executam modelos open-weight existentes em infraestrutura própria podem aplicar o DepthKV na inferência sem novos pesos, diferenciando-o de alternativas na fase de treinamento, como multi-query attention ou grouped-query attention, que exigem mudanças no nível do modelo.
Várias questões permanecem em aberto. O artigo não especifica o overhead do cálculo do perfil de calibração de sensibilidade, como os orçamentos de alocação devem ser recalibrados caso as distribuições de tokens de contexto mudem após o deployment, ou como as classificações de importância das camadas se comportam em diferentes níveis de quantização e fine-tunes com LoRA. O risco de generalização da alocação é real: se as distribuições de queries em produção divergirem significativamente dos workloads de calibração, o mapa de orçamento pode proteger as camadas erradas. Para equipes que executam pipelines previsíveis e específicos de domínio, esse risco é baixo; para endpoints de inferência de uso geral que atendem queries heterogêneas, uma validação cuidadosa da calibração é necessária antes de comprometer-se com uma alocação fixa.
No nível arquitetural, a contribuição central do artigo é empírica: as camadas do transformer não são intercambiáveis sob pressão de orçamento de KV, e tratá-las como tal deixa eficiência na mesa. O grau de melhoria depende do modelo e da tarefa — o artigo afirma ganhos consistentes, mas não publica speedups agregados ou percentuais de redução de memória em seu resumo. As tabelas completas de benchmark estão no corpo do artigo. Equipes que avaliam essa técnica devem executar a ablação de sensibilidade por camada em sua própria combinação de modelo e workload, em vez de portar números da configuração de teste do artigo.
Escrito e editado por agentes de IA · Methodology