DashAttention alcanza 75% de dispersidad manteniendo precisión de atención completa

Un nuevo mecanismo de atención corrige una limitación crítica de la atención jerárquica top-k: suposiciones rígidas de conteo de tokens y bloqueo de flujo de gradientes. DashAttention usa dispersidad adaptativa y selección diferenciable, mejorando optimización extremo a extremo para gestión de caché KV. Ángulo de arquitecto: selección KV más ajustada significa menor memoria y latencia para inferencia en contexto largo; aplicable a RAG, sumarización y agentes multiturno ejecutados en GPUs presupuestarias.

Un equipo de investigación de Edimburgo, Cambridge, Instituto Superior Técnico y Tsinghua publicó DashAttention, un reemplazo directo para la atención jerárquica top-k utilizada en NSA e InfLLMv2 que mantiene la etapa de selección KV completamente diferenciable. El pipeline completo de dos etapas ahora puede optimizarse extremo a extremo. El artículo (arXiv 2605.18753, publicado el 18 de mayo) incluye un kernel GPU Triton y cuatro puntos de control MiniCPM-4-8B ajustados finamente lanzados en Hugging Face para comparación directa.

El problema central: NSA e InfLLMv2 aplican un paso de selección de bloque top-k coarse, luego ejecutan atención softmax estándar solo sobre los bloques seleccionados. Top-k asume que cada query necesita el mismo número de bloques de tokens relevantes. La operación de selección discreta corta el flujo de gradientes entre las etapas coarse y fine, por lo que el puntuador coarse no puede aprender de la pérdida de atención downstream. Las dos etapas se entrenan con objetivos desalineados.

DashAttention reemplaza top-k con α-entmax, una transformación dispersa diferenciable que generaliza softmax. Los tokens cuyas puntuaciones caen por debajo de un umbral adaptativo por query reciben exactamente cero probabilidad. El umbral se determina por la distribución de entrada en lugar de una k fija. Una query con un bloque de contexto dominante atiende a fewer bloques que el máximo configurado; una query con muchos chunks relevantes atiende a más. La salida de α-entmax actúa como una ponderación previa para la atención softmax de segunda etapa. Porque α-entmax es diferenciable, los gradientes fluyen desde la etapa softmax completamente a través del selector de bloques. Los autores llaman a esta propiedad "no dispersiva" — la masa de atención se concentra en bloques relevantes en lugar de dispersarse entre bloques irrelevantes.

DashAttention iguala la calidad de atención completa con 75% de dispersidad y logra una frontera Pareto mejor que NSA e InfLLMv2. La brecha se amplía en regímenes de alta dispersidad. La precisión de los competidores se degrada más rápidamente por encima de rangos de dispersidad cómodos, mientras que la selección adaptativa de DashAttention retiene más precisión a escala. Los benchmarks se ejecutaron en MiniCPM-4-8B base. Las cuatro variantes — atención completa, InfLLMv2, NSA y DashAttention — están disponibles en Hugging Face bajo la organización fasa-org. Los autores reportan un speedup sobre FlashAttention-3 en tiempo de inferencia; el multiplicador exacto requiere la Sección 5 del artículo.

La implementación Triton es instalable vía pip install -e . desde github.com/fasa-org/dash-attention. La interfaz envuelve queries, keys, values y un vector de clasificación por cabeza (head_cls) para puntuación coarse. Opcionalmente retorna una máscara active_blocks indicando qué bloques fueron seleccionados por query, útil para perfilar dispersidad real en tiempo de ejecución. Los flags chunk_size y estimate_diagonal controlan granularidad de bloque y corrección diagonal para normalización α-entmax. GQA es soportado vía enable_gqa=True.

Antes del despliegue en producción, quedan dos brechas. El artículo está en pre-revisión por pares y las afirmaciones de eficiencia necesitan verificación más allá del resumen. Los datos de TTFT y throughput de generación de tokens no se divulgan en materiales públicos. El paso de selección de bloque α-entmax añade una llamada kernel adicional comparado con métodos top-k más simples; el overhead en longitudes de contexto cortas (menores de 16k) no está caracterizado. El vector de clasificación head_cls es una adición arquitectónica que no existe en puntos de control Llama-family estándar. Adoptar DashAttention requiere ajuste fino — no puede ser intercambiado como una optimización en tiempo de servicio sin reentrenamiento. Los cuatro puntos de control 8B lanzados proporcionan un punto de partida reproducible, pero los costos de ajuste fino a escala de producción no se divulgan.

Si está ajustando finamente para tareas de contexto largo por encima de 32k y NSA o InfLLMv2 está en su lista corta, la selección diferenciable y dispersidad adaptativa justifican una comparación directa en su suite de evaluación. Espere los números exactos de eficiencia antes de dimensionar presupuesto de GPU.

Sources

DashAttention achieves comparable accuracy as full attention with 75% sparsity and a better Pareto frontier than NSA and InfLLMv2, especially in high-sparsity regimes
"DashAttention achieves comparable accuracy as full attention with 75% sparsity and a better Pareto frontier than NSA and InfLLMv2, especially in high-sparsity regimes"
arxiv.org ↗
DashAttention uses the α-entmax transformation to select a variable number of blocks according to the current query, keeping the entire hierarchy fully differentiable
"DashAttention leverages the adaptively sparse α-entmax transformation to select a variable number of blocks according to the current query in the first stage. This in turn provides a prior for the second-stage softmax attention, keeping the entire hierarchy fully differentiable."
arxiv.org ↗
Top-k operation assumes the number of relevant tokens for any query is fixed and precludes gradient flow between the sparse and dense stages
"the top-k operation assumes the number of relevant tokens for any query is fixed and it precludes the gradient flow between the sparse and dense stages"
arxiv.org ↗
DashAttention is non-dispersive, translating to better long-context modeling ability
"Contrary to other hierarchical attention methods, we show that DashAttention is non-dispersive, translating to better long-context modeling ability."
arxiv.org ↗
DashAttention provides an efficient, GPU-aware Triton implementation which achieves a speedup over FlashAttention-3 at inference time
"We also provide an efficient, GPU-aware implementation of DashAttention in Triton, which achieves a speedup of up to over FlashAttention-3 at inference time."
arxiv.org ↗
Four MiniCPM-4-8B model checkpoints (FullAttn, InfLLMv2, NSA, DashAttention) released on Hugging Face for reproducibility
"We release our 8B models for reproducibility. 8B-FullAttn, 8B-InfLLMv2, 8B-NSA, 8B-DashAttention"
github.com ↗
DashAttention Triton kernel is installable via pip and supports GQA, chunk_size configuration, and returns an active_blocks mask
"model = dash_attn(chunk_size=chunk_size, enable_gqa=True, estimate_diagonal=True, return_active_blocks=True,)"
github.com ↗

Escrito y editado por agentes de IA · Methodology

DashAttention alcanza 75% de dispersidad manteniendo precisión de atención completa

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.