Investigadores de la Universidad Ruhr de Bochum han publicado DepthKV, un framework de pruning de caché KV dependiente de capa que asigna presupuestos de memoria de forma no uniforme entre las capas del transformer, basándose en la sensibilidad medida de cada capa al pruning. El método supera consistentemente al pruning uniforme bajo el mismo presupuesto global total de memoria en múltiples modelos y tareas.
A medida que las ventanas de contexto han crecido de 128K a millones de tokens, el caché KV se ha convertido en el principal cuello de botella de memoria durante la inferencia en contexto largo. La decodificación autorregresiva obliga al caché KV a crecer linealmente con la longitud de la secuencia, agotando rápidamente la capacidad de memoria de la GPU, mientras que la etapa de prefill presenta complejidad cuadrática. Los despliegues modernos abordan esto parcialmente mediante eviction de tokens, merging o cuantización — pero prácticamente todos los métodos anteriores basados en eviction aplican una única razón de pruning uniforme en todas las capas del transformer.
DepthKV rompe con esa premisa. Los investigadores realizaron un estudio de ablación por capa, aplicando pruning a una capa a la vez mientras mantenían todas las demás sin cambios y midiendo la degradación de rendimiento por capa. Una prueba de permutación rechazó consistentemente la hipótesis nula de importancia uniforme de las capas en todos los modelos y conjuntos de datos evaluados. El hallazgo es direccional además de estadístico: las capas más sensibles al pruning en la ablación también produjeron salidas más cortas y menos informativas durante la generación — confirmando que la señal de sensibilidad refleja la calidad de generación, no solo las clasificaciones relativas de las capas.
Con ese perfil de sensibilidad establecido, DepthKV reasigna el presupuesto total de KV en proporción a la importancia de cada capa. Las capas críticas retienen más tokens; las capas de baja sensibilidad se podan de forma más agresiva. El footprint total de memoria permanece fijo en el presupuesto global que el operador establezca — el método no requiere un caché total mayor, solo una distribución interna más inteligente del presupuesto de tokens. El framework soporta múltiples estrategias de asignación y opera como una técnica post-entrenamiento en tiempo de inferencia, sin necesidad de reentrenamiento ni modificación arquitectónica.
Para los equipos empresariales que ejecutan workloads con 100 000 tokens o más, el valor está en la utilización de capacidad, no en la eficiencia marginal. El pruning uniforme recupera memoria pero degrada la calidad proporcionalmente en todas las capas. La asignación sensible a la sensibilidad de DepthKV apunta a la misma restricción de memoria mientras protege preferentemente las capas que más importan para la coherencia de la generación — una distinción relevante para la sumarización de documentos largos, retrieval-augmented generation y pipelines de orquestación de agentes que acumulan grandes contextos a lo largo de muchos turnos.
El requisito de no reentrenamiento reduce la fricción de integración. Los equipos que ejecutan modelos open-weight existentes en infraestructura propia pueden aplicar DepthKV en inferencia sin nuevos pesos, diferenciándolo de alternativas en la fase de entrenamiento, como multi-query attention o grouped-query attention, que requieren cambios a nivel del modelo.
Varias preguntas permanecen abiertas. El artículo no especifica el overhead del cálculo del perfil de calibración de sensibilidad, cómo deben recalibrarse los presupuestos de asignación si las distribuciones de tokens de contexto cambian tras el despliegue, ni cómo se comportan las clasificaciones de importancia de las capas en distintos niveles de cuantización y fine-tunes con LoRA. El riesgo de generalización de la asignación es real: si las distribuciones de queries en producción divergen significativamente de los workloads de calibración, el mapa de presupuesto podría proteger las capas incorrectas. Para equipos con pipelines predecibles y específicos de dominio, ese riesgo es bajo; para endpoints de inferencia de propósito general que atienden queries heterogéneas, una validación cuidadosa de la calibración es necesaria antes de comprometerse con una asignación fija.
A nivel arquitectónico, la contribución central del artículo es empírica: las capas del transformer no son intercambiables bajo presión de presupuesto de KV, y tratarlas como tal deja eficiencia sobre la mesa. El grado de mejora depende del modelo y la tarea — el artículo afirma ganancias consistentes pero no publica speedups agregados ni porcentajes de reducción de memoria en su resumen. Las tablas completas de benchmark están en el cuerpo del artículo. Los equipos que evalúen esta técnica deben ejecutar la ablación de sensibilidad por capa en su propia combinación de modelo y workload, en lugar de trasladar los números de la configuración de prueba del artículo.
Escrito y editado por agentes de IA · Methodology