DepthKV Supera o Pruning Uniforme de Cache KV ao Alocar Memória por Sensibilidade de Camada

Pesquisadores da Universidade Ruhr de Bochum publicaram o DepthKV, um framework de pruning de cache KV dependente de camada que aloca orçamentos de memória de forma não uniforme entre as camadas do transformer com base na sensibilidade medida de cada camada ao pruning. O método supera consistentemente o pruning uniforme sob o mesmo orçamento global total de memória em múltiplos modelos e tarefas.

À medida que as janelas de contexto cresceram de 128K para milhões de tokens, o cache KV tornou-se o principal gargalo de memória durante a inferência em contexto longo. A decodificação autorregressiva força o cache KV a crescer linearmente com o comprimento da sequência, rapidamente esgotando a capacidade de memória da GPU, enquanto o estágio de prefill apresenta complexidade quadrática. Deployments modernos abordam isso parcialmente por meio de eviction de tokens, merging ou quantização — mas praticamente todos os métodos anteriores baseados em eviction aplicam uma única razão de pruning uniforme em todas as camadas do transformer.

O DepthKV rompe com essa premissa. Os pesquisadores conduziram um estudo de ablação por camada, aplicando pruning a uma camada de cada vez enquanto mantinham todas as outras inalteradas e medindo a degradação de desempenho por camada. Um teste de permutação rejeitou consistentemente a hipótese nula de importância uniforme das camadas em todos os modelos e conjuntos de dados testados. O resultado é direcional além de estatístico: as camadas mais sensíveis ao pruning na ablação também produziram saídas mais curtas e menos informativas durante a geração — confirmando que o sinal de sensibilidade acompanha a qualidade da geração, não apenas as classificações relativas das camadas.

Com o perfil de sensibilidade estabelecido, o DepthKV realoca o orçamento total de KV proporcionalmente à importância de cada camada. Camadas críticas retêm mais tokens; camadas de baixa sensibilidade são podadas de forma mais agressiva. O footprint total de memória permanece fixo no orçamento global definido pelo operador — o método não exige um cache total maior, apenas uma distribuição interna mais inteligente do orçamento de tokens. O framework suporta múltiplas estratégias de alocação e opera como uma técnica de pós-treinamento em tempo de inferência, sem necessidade de retreinamento ou modificação arquitetural.

Para equipes corporativas que executam workloads com 100 mil tokens ou mais, o valor está na utilização de capacidade, não na eficiência marginal. O pruning uniforme recupera memória, mas degrada a qualidade proporcionalmente em todas as camadas. A alocação sensível à sensibilidade do DepthKV visa à mesma restrição de memória enquanto protege preferencialmente as camadas que mais importam para a coerência da geração — uma distinção relevante para sumarização de documentos longos, retrieval-augmented generation e pipelines de orquestração de agentes que acumulam grandes contextos ao longo de muitos turnos.

O requisito de não retreinamento reduz o atrito de integração. Equipes que executam modelos open-weight existentes em infraestrutura própria podem aplicar o DepthKV na inferência sem novos pesos, diferenciando-o de alternativas na fase de treinamento, como multi-query attention ou grouped-query attention, que exigem mudanças no nível do modelo.

Várias questões permanecem em aberto. O artigo não especifica o overhead do cálculo do perfil de calibração de sensibilidade, como os orçamentos de alocação devem ser recalibrados caso as distribuições de tokens de contexto mudem após o deployment, ou como as classificações de importância das camadas se comportam em diferentes níveis de quantização e fine-tunes com LoRA. O risco de generalização da alocação é real: se as distribuições de queries em produção divergirem significativamente dos workloads de calibração, o mapa de orçamento pode proteger as camadas erradas. Para equipes que executam pipelines previsíveis e específicos de domínio, esse risco é baixo; para endpoints de inferência de uso geral que atendem queries heterogêneas, uma validação cuidadosa da calibração é necessária antes de comprometer-se com uma alocação fixa.

No nível arquitetural, a contribuição central do artigo é empírica: as camadas do transformer não são intercambiáveis sob pressão de orçamento de KV, e tratá-las como tal deixa eficiência na mesa. O grau de melhoria depende do modelo e da tarefa — o artigo afirma ganhos consistentes, mas não publica speedups agregados ou percentuais de redução de memória em seu resumo. As tabelas completas de benchmark estão no corpo do artigo. Equipes que avaliam essa técnica devem executar a ablação de sensibilidade por camada em sua própria combinação de modelo e workload, em vez de portar números da configuração de teste do artigo.

Sources

DepthKV consistently outperforms uniform pruning at the same global pruning ratio across multiple models and tasks
"DepthKV consistently outperforms uniform pruning at the same global pruning ratio, demonstrating more effective utilization of the KV cache budget through layer-dependent allocation."
arxiv.org ↗
KV cache memory footprint grows linearly with sequence length and is a major memory bottleneck
"the key-value (KV) cache, whose memory footprint grows linearly with sequence length, leading to a major memory bottleneck"
arxiv.org ↗
Context window sizes have grown from 128K to millions of tokens
"context window sizes, ranging from 128K to millions of tokens"
arxiv.org ↗
The prefill stage processes the entire input with quadratic complexity
"the prefill stage processes the entire input with quadratic complexity"
arxiv.org ↗
KV cache quickly exceeds GPU memory capacity in long-context settings
"the KV cache grows with both sequence length, quickly exceeding GPU memory capacity in long-context settings"
arxiv.org ↗
A permutation test consistently rejects the hypothesis of uniform layer importance across models and datasets
"A permutation test consistently rejects the hypothesis of uniform layer importance across models and datasets, demonstrating that transformer layers contribute unevenly to long-context performance."
arxiv.org ↗
Layers most sensitive in ablation produce shorter and less informative outputs when pruned
"layers that are most sensitive in the ablation study also lead to shorter and less informative outputs when pruned, indicating that their impact on performance is closely tied to their role in sustaining content generation"
arxiv.org ↗
DepthKV is a post-training, inference-time technique; post-training methods directly reduce memory usage during inference without retraining
"post-training methods directly reduce memory usage during inference, making them particularly practical for long-context settings"
arxiv.org ↗
DepthKV authors are affiliated with Ruhr University Bochum and UAR Research Center for Trustworthy Data Science and Security
"Zahra Dehghanighobadi1,2 Asja Fischer1 1Ruhr University Bochum 2UAR Research Center for Trustworthy Data Science and Security"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

DepthKV Supera o Pruning Uniforme de Cache KV ao Alocar Memória por Sensibilidade de Camada

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.