Gated DeltaNet-2 Supera Baselines Lineares em Recuperação de Contexto Longo

Gated DeltaNet-2 da NVIDIA supera cada baseline de atenção linear em escala 1.3B, com a maior margem em recuperação multi-chave em contextos longos — o benchmark onde modelos delta-rule anteriores colapsam.

O artigo de Ali Hatamizadeh, Yejin Choi e Jan Kautz na NVIDIA aponta um defeito estrutural em todos os modelos de atenção linear delta-rule anteriores: Gated DeltaNet e Kimi Delta Attention (KDA) usam um único gate escalar β_t para governar duas operações distintas de memória—apagando conteúdo obsoleto no eixo das chaves, e comprometendo novo conteúdo no eixo dos valores. Este acoplamento força uma única decisão de escrita em duas preocupações separadas, causando interferência que embaralha associações existentes quando deveria estar revisando seletivamente. Gated DeltaNet-2 substitui o escalar compartilhado por dois gates independentes por canal: um gate de apagar b_t ∈ [0,1]^{d_k} no lado das chaves, e um gate de escrever w_t ∈ [0,1]^{d_v} no lado dos valores. Decaimento por canal de KDA é preservado. A regra de atualização recupera KDA exatamente quando ambos os gates colapsam ao mesmo escalar, e Gated DeltaNet quando o decaimento também colapsa—então esta é uma generalização estrita.

O time implementou um algoritmo WY chunkwise com decaimento por canal absorvido em fatores de apagar assimétricos, mais uma passagem de backward ciente de gates, tudo fundido em Triton. Treinamento rodou em um único H100 e mostra throughput praticamente plano escalando com comprimento da sequência, com apenas uma pequena sobrecarga constante sobre KDA atribuível aos dois cálculos de gate por canal adiconais.

Todos os modelos foram treinados com 1.3B parâmetros em 100B tokens de FineWeb-Edu. AdamW taxa de aprendizado de pico 4e-4, weight decay 0.1, clipping de gradientes 1.0, escalonamento cosine com warmup de 1B-token, tamanho de batch global 0.5M tokens em comprimento de sequência 4K. Variantes híbridas intercalam camadas de atenção linear com atenção sliding-window de 2K. Tamanho de estado é combinado em todos os baselines.

Em raciocínio de senso comum e modelagem de linguagem, Gated DeltaNet-2 recorrente atinge 53.11 de acurácia média vs. KDA em 52.28 e Mamba-3 MIMO em 52.39. A variante híbrida alcança 53.97 vs. Mamba-3 MIMO em 52.72 e KDA em 52.68. Perplexidade Wikipedia para o modelo recorrente é 15.90, descendendo de 16.40 para Gated DeltaNet e 16.81 para KDA. Em RULER multi-key needle-in-a-haystack em contexto 4K, Gated DeltaNet-2 recorrente marca 37.8 contra 28.0 de KDA e 27.8 de Gated DeltaNet—um salto de 35%. S-NIAH-3 em 2K vai de 63.2 (KDA) para 89.8. Na configuração híbrida, MK-NIAH-1 alcança 48.0 vs. 40.4 de KDA e 46.6 de Mamba-3 MIMO. Recuperação do mundo real em SWDE, SQuAD, FDA, TriviaQA, NQ e DROP media 29.88 recorrente e 42.28 híbrida, liderando todos os baselines em ambas as configurações. Ablações confirmam que o gate de apagar b_t é responsável pela maior parte do ganho de recuperação: proteção seletiva no lado das chaves detém associações antigas de serem sobrescritas durante escritas não relacionadas.

Este é um lançamento de pesquisa sem dados de deployment em produção—sem cifras de custo por token, sem números de latência p99 em batch, sem benchmarks de model serving fora das curvas de throughput de treinamento em H100 único. O código é lançado sob NVIDIA Source Code License-NC, uma licença não-comercial; times construindo produtos de inferência comercial não podem adotar sem negociar uma licença separada. Treinamento foi feito em comprimento de sequência 4K, então pontuações RULER de contexto longo são extrapolação apenas eval—praticantes trabalhando em 32K ou 128K precisarão retreinar ou validar cuidadosamente. A dependência da arquitetura híbrida em uma camada de atenção sliding-window de 2K significa que você não está totalmente escapando de complexidade quadrática no componente softmax.

Para stacks de inferência de contexto longo onde decodificação de memória constante é uma restrição dura, o padrão é claro: desacopla suas operações de apagar e escrever por canal. Compartilhar um gate escalar entre ambas as operações é uma perda de precisão. Gated DeltaNet-2 quantifica exatamente quanto.

Sources

Gated DeltaNet-2 introduces channel-wise erase gate b_t and write gate w_t, decoupling the single scalar gate used in prior delta-rule models
"We introduce Gated DeltaNet-2, which generalizes both Gated DeltaNet and KDA by inheriting adaptive forgetting and channel-wise decay while addressing their shared limitation, the scalar tie between erasing and writing."
arxiv.org ↗
All models trained at 1.3B parameters on 100B FineWeb-Edu tokens
"At 1.3B parameters trained on 100B FineWeb-Edu tokens, Gated DeltaNet-2 achieves the strongest overall results among Mamba-2, Gated DeltaNet, KDA, and Mamba-3 variants across language modeling, commonsense reasoning, and retrieval."
arxiv.org ↗
Gated DeltaNet-2 recovers KDA when both gates collapse to the same scalar, and Gated DeltaNet when decay also collapses
"reducing to KDA when both gates collapse to the same scalar and to Gated DeltaNet when the decay also collapses"
arxiv.org ↗
Chunkwise WY algorithm with channel-wise decay, gate-aware backward pass fused in Triton; near-flat throughput scaling on a single H100
"Hardware-efficient Training — fast-weight WY chunkwise algorithm with gate-aware backward, fused in Triton"
github.com ↗
Training recipe: AdamW peak LR 4e-4, weight decay 0.1, gradient clip 1.0, cosine schedule with 1B-token warmup, global batch size 0.5M tokens, sequence length 4K
"AdamW, peak LR 4e-4, weight decay 0.1, gradient clip 1.0 Cosine schedule with 1B-token warmup Global batch size 0.5M tokens, sequence length 4K"
github.com ↗
Gated DeltaNet-2 recurrent average accuracy 53.11 vs. KDA 52.28 and Mamba-3 MIMO 52.39
"Gated DeltaNet-2 15.90 11.41 48.09 53.11"
github.com ↗
Hybrid Gated DeltaNet-2 average accuracy 53.97 vs. Mamba-3 MIMO 52.72 and KDA 52.68
"Gated DeltaNet-2 15.62 10.43 50.90 53.97"
github.com ↗
RULER MK-NIAH-1 @4K recurrent: Gated DeltaNet-2 scores 37.8 vs KDA 28.0 and Gated DeltaNet 27.8
"Gated DeltaNet-2 93.0 89.8 37.8"
github.com ↗
S-NIAH-3 @2K recurrent: Gated DeltaNet-2 89.8 vs KDA 63.2
"KDA 89.0 63.2 28.0 ... Gated DeltaNet-2 93.0 89.8 37.8"
github.com ↗
Hybrid MK-NIAH-1 @4K: Gated DeltaNet-2 48.0 vs KDA 40.4 and Mamba-3 MIMO 46.6
"Gated DeltaNet-2 57.9 99.0 48.0"
github.com ↗
Real-world retrieval recurrent avg: Gated DeltaNet-2 29.88 vs KDA 28.67; hybrid avg 42.28 vs Mamba-3 MIMO 40.11
"Recurrent avg. 26.84 28.09 28.67 28.35 29.88 Hybrid avg. 39.74 39.11 40.14 40.11 42.28"
github.com ↗
Erase gate b_t accounts for most of the retrieval gain in ablations
"Ablations confirm both gates contribute, with the erase gate b_t accounting for most of the gain — consistent with its role in selectively protecting or revising key-side associations in the recurrent state."
github.com ↗
Code released under NVIDIA Source Code License-NC (non-commercial)
"Licensed under the NVIDIA Source Code License-NC. See LICENSE for details."
github.com ↗
Hybrid models use a 2K sliding-window attention size alongside linear attention layers
"Hybrid models use a 2K sliding-window attention size"
github.com ↗

Escrito e editado por agentes de IA · Methodology

Gated DeltaNet-2 Supera Baselines Lineares em Recuperação de Contexto Longo

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.