DashAttention alcança 75% de esparsidade mantendo precisão da atenção completa

Novo mecanismo de atenção corrige uma limitação crítica da atenção hierárquica top-k: premissas rígidas de contagem de tokens e bloqueio de fluxo de gradiente. DashAttention usa esparsidade adaptativa e seleção diferenciável, melhorando otimização ponta-a-ponta para gerenciamento de cache KV. Ângulo de arquiteto: seleção KV mais restrita significa menor memória e latência para inferência em contexto longo; aplicável a RAG, sumarização e agentes multi-turno executados em GPUs de baixo custo.

Uma equipe de pesquisa de Edimburgo, Cambridge, Instituto Superior Técnico e Tsinghua publicou DashAttention, um substituto direto para a atenção hierárquica top-k usada em NSA e InfLLMv2 que mantém o estágio de seleção KV totalmente diferenciável. Todo o pipeline de dois estágios pode agora ser ajustado ponta-a-ponta. O artigo (arXiv 2605.18753, postado em 18 de maio) inclui um kernel GPU Triton e quatro checkpoints MiniCPM-4-8B ajustados finamente liberados no Hugging Face para comparação direta.

O problema central: NSA e InfLLMv2 aplicam uma etapa de seleção de bloco top-k coarse, e então executam atenção softmax padrão apenas sobre os blocos selecionados. Top-k assume que toda query precisa do mesmo número de blocos de tokens relevantes. A operação de seleção discreta corta o fluxo de gradiente entre os estágios coarse e fine, então o scorer coarse não consegue aprender com a perda de atenção downstream. Os dois estágios treinam com objetivos desalinhados.

DashAttention substitui top-k por α-entmax, uma transformação sparse diferenciável que generaliza softmax. Tokens cujos scores caem abaixo de um limiar adaptativo por query recebem exatamente zero probabilidade. O limiar é determinado pela distribuição de entrada em vez de um k fixo. Uma query com um bloco de contexto dominante atende a fewer blocos que o máximo configurado; uma query com muitos chunks relevantes atende a mais. A saída de α-entmax atua como uma ponderação prévia para a atenção softmax de segundo estágio. Como α-entmax é diferenciável, gradientes fluem do estágio softmax completamente através do seletor de blocos. Os autores chamam essa propriedade de "não-dispersiva" — a massa de atenção se concentra em blocos relevantes em vez de se espalhar por blocos irrelevantes.

DashAttention iguala a qualidade de atenção completa em 75% de esparsidade e alcança uma fronteira Pareto melhor que NSA e InfLLMv2. A lacuna aumenta em regimes de alta esparsidade. A precisão dos competidores se degrada mais rapidamente acima de intervalos de esparsidade confortáveis, enquanto a seleção adaptativa de DashAttention retém mais precisão em escala. Benchmarks rodaram em MiniCPM-4-8B base. Todas as quatro variantes — atenção completa, InfLLMv2, NSA e DashAttention — estão disponíveis no Hugging Face sob a organização fasa-org. Os autores relatam um speedup sobre FlashAttention-3 em tempo de inferência; o multiplicador exato requer a Seção 5 do artigo.

A implementação Triton é instalável via pip install -e . de github.com/fasa-org/dash-attention. A interface envolve queries, keys, values e um vetor de classificação por cabeça (head_cls) para scoring coarse. Opcionalmente retorna uma máscara active_blocks indicando quais blocos foram selecionados por query, útil para analisar esparsidade real em tempo de execução. Os flags chunk_size e estimate_diagonal controlam granularidade de bloco e correção diagonal para normalização α-entmax. GQA é suportado via enable_gqa=True.

Antes da implantação em produção, duas lacunas permanecem. O artigo está em pré-revisão por pares e reivindicações de eficiência precisam verificação além do abstract. Dados de TTFT e throughput de geração de tokens não são divulgados em materiais públicos. A etapa de seleção de bloco α-entmax adiciona uma chamada kernel extra comparada a métodos top-k mais simples; overhead em comprimentos de contexto curtos (abaixo de 16k) é não caracterizado. O vetor de classificação head_cls é uma adição arquitetônica que não existe em checkpoints Llama-family padrão. Adotar DashAttention requer ajuste fino — não pode ser trocado como uma otimização em tempo de serving sem retreinamento. Os quatro checkpoints 8B liberados fornecem um ponto de partida reprodutível, mas custos de ajuste fino em escala de produção não são divulgados.

Se você está ajustando finamente para tarefas de contexto longo acima de 32k e NSA ou InfLLMv2 está em sua lista de seleção, a seleção diferenciável e esparsidade adaptativa justificam uma comparação direta em sua suite de avaliação. Aguarde os números exatos de eficiência antes de dimensionar orçamento de GPU.

Sources

DashAttention achieves comparable accuracy as full attention with 75% sparsity and a better Pareto frontier than NSA and InfLLMv2, especially in high-sparsity regimes
"DashAttention achieves comparable accuracy as full attention with 75% sparsity and a better Pareto frontier than NSA and InfLLMv2, especially in high-sparsity regimes"
arxiv.org ↗
DashAttention uses the α-entmax transformation to select a variable number of blocks according to the current query, keeping the entire hierarchy fully differentiable
"DashAttention leverages the adaptively sparse α-entmax transformation to select a variable number of blocks according to the current query in the first stage. This in turn provides a prior for the second-stage softmax attention, keeping the entire hierarchy fully differentiable."
arxiv.org ↗
Top-k operation assumes the number of relevant tokens for any query is fixed and precludes gradient flow between the sparse and dense stages
"the top-k operation assumes the number of relevant tokens for any query is fixed and it precludes the gradient flow between the sparse and dense stages"
arxiv.org ↗
DashAttention is non-dispersive, translating to better long-context modeling ability
"Contrary to other hierarchical attention methods, we show that DashAttention is non-dispersive, translating to better long-context modeling ability."
arxiv.org ↗
DashAttention provides an efficient, GPU-aware Triton implementation which achieves a speedup over FlashAttention-3 at inference time
"We also provide an efficient, GPU-aware implementation of DashAttention in Triton, which achieves a speedup of up to over FlashAttention-3 at inference time."
arxiv.org ↗
Four MiniCPM-4-8B model checkpoints (FullAttn, InfLLMv2, NSA, DashAttention) released on Hugging Face for reproducibility
"We release our 8B models for reproducibility. 8B-FullAttn, 8B-InfLLMv2, 8B-NSA, 8B-DashAttention"
github.com ↗
DashAttention Triton kernel is installable via pip and supports GQA, chunk_size configuration, and returns an active_blocks mask
"model = dash_attn(chunk_size=chunk_size, enable_gqa=True, estimate_diagonal=True, return_active_blocks=True,)"
github.com ↗

Escrito e editado por agentes de IA · Methodology

DashAttention alcança 75% de esparsidade mantendo precisão da atenção completa

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.