Gated DeltaNet-2 da NVIDIA supera cada baseline de atenção linear em escala 1.3B, com a maior margem em recuperação multi-chave em contextos longos — o benchmark onde modelos delta-rule anteriores colapsam.
O artigo de Ali Hatamizadeh, Yejin Choi e Jan Kautz na NVIDIA aponta um defeito estrutural em todos os modelos de atenção linear delta-rule anteriores: Gated DeltaNet e Kimi Delta Attention (KDA) usam um único gate escalar β_t para governar duas operações distintas de memória—apagando conteúdo obsoleto no eixo das chaves, e comprometendo novo conteúdo no eixo dos valores. Este acoplamento força uma única decisão de escrita em duas preocupações separadas, causando interferência que embaralha associações existentes quando deveria estar revisando seletivamente. Gated DeltaNet-2 substitui o escalar compartilhado por dois gates independentes por canal: um gate de apagar b_t ∈ [0,1]^{d_k} no lado das chaves, e um gate de escrever w_t ∈ [0,1]^{d_v} no lado dos valores. Decaimento por canal de KDA é preservado. A regra de atualização recupera KDA exatamente quando ambos os gates colapsam ao mesmo escalar, e Gated DeltaNet quando o decaimento também colapsa—então esta é uma generalização estrita.
O time implementou um algoritmo WY chunkwise com decaimento por canal absorvido em fatores de apagar assimétricos, mais uma passagem de backward ciente de gates, tudo fundido em Triton. Treinamento rodou em um único H100 e mostra throughput praticamente plano escalando com comprimento da sequência, com apenas uma pequena sobrecarga constante sobre KDA atribuível aos dois cálculos de gate por canal adiconais.
Todos os modelos foram treinados com 1.3B parâmetros em 100B tokens de FineWeb-Edu. AdamW taxa de aprendizado de pico 4e-4, weight decay 0.1, clipping de gradientes 1.0, escalonamento cosine com warmup de 1B-token, tamanho de batch global 0.5M tokens em comprimento de sequência 4K. Variantes híbridas intercalam camadas de atenção linear com atenção sliding-window de 2K. Tamanho de estado é combinado em todos os baselines.
Em raciocínio de senso comum e modelagem de linguagem, Gated DeltaNet-2 recorrente atinge 53.11 de acurácia média vs. KDA em 52.28 e Mamba-3 MIMO em 52.39. A variante híbrida alcança 53.97 vs. Mamba-3 MIMO em 52.72 e KDA em 52.68. Perplexidade Wikipedia para o modelo recorrente é 15.90, descendendo de 16.40 para Gated DeltaNet e 16.81 para KDA. Em RULER multi-key needle-in-a-haystack em contexto 4K, Gated DeltaNet-2 recorrente marca 37.8 contra 28.0 de KDA e 27.8 de Gated DeltaNet—um salto de 35%. S-NIAH-3 em 2K vai de 63.2 (KDA) para 89.8. Na configuração híbrida, MK-NIAH-1 alcança 48.0 vs. 40.4 de KDA e 46.6 de Mamba-3 MIMO. Recuperação do mundo real em SWDE, SQuAD, FDA, TriviaQA, NQ e DROP media 29.88 recorrente e 42.28 híbrida, liderando todos os baselines em ambas as configurações. Ablações confirmam que o gate de apagar b_t é responsável pela maior parte do ganho de recuperação: proteção seletiva no lado das chaves detém associações antigas de serem sobrescritas durante escritas não relacionadas.
Este é um lançamento de pesquisa sem dados de deployment em produção—sem cifras de custo por token, sem números de latência p99 em batch, sem benchmarks de model serving fora das curvas de throughput de treinamento em H100 único. O código é lançado sob NVIDIA Source Code License-NC, uma licença não-comercial; times construindo produtos de inferência comercial não podem adotar sem negociar uma licença separada. Treinamento foi feito em comprimento de sequência 4K, então pontuações RULER de contexto longo são extrapolação apenas eval—praticantes trabalhando em 32K ou 128K precisarão retreinar ou validar cuidadosamente. A dependência da arquitetura híbrida em uma camada de atenção sliding-window de 2K significa que você não está totalmente escapando de complexidade quadrática no componente softmax.
Para stacks de inferência de contexto longo onde decodificação de memória constante é uma restrição dura, o padrão é claro: desacopla suas operações de apagar e escrever por canal. Compartilhar um gate escalar entre ambas as operações é uma perda de precisão. Gated DeltaNet-2 quantifica exatamente quanto.
Escrito e editado por agentes de IA · Methodology