Gated DeltaNet-2 Supera Baselines Lineales en Recuperación de Contexto Largo

Gated DeltaNet-2 de NVIDIA supera cada baseline de atención lineal en escala 1.3B, con el margen más amplio en recuperación multi-clave en contextos largos — el benchmark donde modelos delta-rule previos colapsan.

El artículo de Ali Hatamizadeh, Yejin Choi y Jan Kautz en NVIDIA identifica un defecto estructural en todos los modelos de atención lineal delta-rule previos: Gated DeltaNet y Kimi Delta Attention (KDA) usan una única puerta escalar β_t para gobernar dos operaciones de memoria distintas—borrado de contenido obsoleto en el eje de claves, y confirmación de contenido nuevo en el eje de valores. Este acoplamiento impone una única decisión de escritura en dos preocupaciones separadas, causando interferencia que embarrulla asociaciones existentes cuando debería estar revisándolas selectivamente. Gated DeltaNet-2 reemplaza el escalar compartido con dos puertas independientes por canal: una puerta de borrado b_t ∈ [0,1]^{d_k} en el lado de las claves, y una puerta de escritura w_t ∈ [0,1]^{d_v} en el lado de los valores. El decaimiento por canal de KDA se preserva. La regla de actualización recupera KDA exactamente cuando ambas puertas colapsan al mismo escalar, y Gated DeltaNet cuando el decaimiento también colapsa—así que esta es una generalización estricta.

El equipo implementó un algoritmo WY chunkwise con decaimiento por canal absorbido en factores de borrado asimétricos, más una pasada hacia atrás consciente de puertas, todo fusionado en Triton. El entrenamiento se ejecutó en un único H100 y muestra throughput prácticamente plano escalando con longitud de secuencia, con solo una pequeña sobrecarga constante sobre KDA atribuible a los dos cálculos de puerta por canal adicionales.

Todos los modelos se entrenaron con 1.3B parámetros en 100B tokens de FineWeb-Edu. AdamW tasa de aprendizaje pico 4e-4, weight decay 0.1, clipping de gradientes 1.0, cronograma coseno con calentamiento de 1B-token, tamaño de lote global 0.5M tokens en longitud de secuencia 4K. Variantes híbridas intercalan capas de atención lineal con atención sliding-window de 2K. El tamaño de estado se iguala en todos los baselines.

En razonamiento de sentido común y modelado de lenguaje, Gated DeltaNet-2 recurrente alcanza 53.11 de precisión promedio vs. KDA en 52.28 y Mamba-3 MIMO en 52.39. La variante híbrida logra 53.97 vs. Mamba-3 MIMO en 52.72 y KDA en 52.68. La perplejidad de Wikipedia para el modelo recurrente es 15.90, descendiendo de 16.40 para Gated DeltaNet y 16.81 para KDA. En RULER multi-clave needle-in-a-haystack en contexto 4K, Gated DeltaNet-2 recurrente marca 37.8 contra 28.0 de KDA y 27.8 de Gated DeltaNet—un salto del 35%. S-NIAH-3 en 2K va de 63.2 (KDA) a 89.8. En la configuración híbrida, MK-NIAH-1 alcanza 48.0 vs. 40.4 de KDA y 46.6 de Mamba-3 MIMO. Recuperación del mundo real en SWDE, SQuAD, FDA, TriviaQA, NQ y DROP promedian 29.88 recurrente y 42.28 híbrida, liderando todos los baselines en ambas configuraciones. Las ablaciones confirman que la puerta de borrado b_t representa la mayor parte de la ganancia de recuperación: la protección selectiva del lado de las claves impide que las asociaciones antiguas se sobrescriban durante escritas no relacionadas.

Este es un lanzamiento de investigación sin datos de implementación en producción—sin cifras de costo por token, sin números de latencia p99 en lote, sin benchmarks de servicio de modelos fuera de curvas de throughput de entrenamiento en H100 único. El código se lanza bajo NVIDIA Source Code License-NC, una licencia no comercial; los equipos que construyen productos de inferencia comercial no pueden adoptarlo sin negociar una licencia separada. El entrenamiento se realizó en longitud de secuencia 4K, por lo que las puntuaciones RULER de contexto largo son extrapolación solo eval—los practicantes que trabajan en 32K o 128K necesitarán reentrenaror validar cuidadosamente. La dependencia de la arquitectura híbrida en una capa de atención sliding-window de 2K significa que no está escapando completamente de la complejidad cuadrática en el componente softmax.

Para stacks de inferencia de contexto largo donde la decodificación de memoria constante es una restricción dura, el patrón es claro: desacopla tus operaciones de borrado y escritura por canal. Compartir una puerta escalar entre ambas operaciones es una pérdida de precisión. Gated DeltaNet-2 cuantifica exactamente cuánto.

Sources

Gated DeltaNet-2 introduces channel-wise erase gate b_t and write gate w_t, decoupling the single scalar gate used in prior delta-rule models
"We introduce Gated DeltaNet-2, which generalizes both Gated DeltaNet and KDA by inheriting adaptive forgetting and channel-wise decay while addressing their shared limitation, the scalar tie between erasing and writing."
arxiv.org ↗
All models trained at 1.3B parameters on 100B FineWeb-Edu tokens
"At 1.3B parameters trained on 100B FineWeb-Edu tokens, Gated DeltaNet-2 achieves the strongest overall results among Mamba-2, Gated DeltaNet, KDA, and Mamba-3 variants across language modeling, commonsense reasoning, and retrieval."
arxiv.org ↗
Gated DeltaNet-2 recovers KDA when both gates collapse to the same scalar, and Gated DeltaNet when decay also collapses
"reducing to KDA when both gates collapse to the same scalar and to Gated DeltaNet when the decay also collapses"
arxiv.org ↗
Chunkwise WY algorithm with channel-wise decay, gate-aware backward pass fused in Triton; near-flat throughput scaling on a single H100
"Hardware-efficient Training — fast-weight WY chunkwise algorithm with gate-aware backward, fused in Triton"
github.com ↗
Training recipe: AdamW peak LR 4e-4, weight decay 0.1, gradient clip 1.0, cosine schedule with 1B-token warmup, global batch size 0.5M tokens, sequence length 4K
"AdamW, peak LR 4e-4, weight decay 0.1, gradient clip 1.0 Cosine schedule with 1B-token warmup Global batch size 0.5M tokens, sequence length 4K"
github.com ↗
Gated DeltaNet-2 recurrent average accuracy 53.11 vs. KDA 52.28 and Mamba-3 MIMO 52.39
"Gated DeltaNet-2 15.90 11.41 48.09 53.11"
github.com ↗
Hybrid Gated DeltaNet-2 average accuracy 53.97 vs. Mamba-3 MIMO 52.72 and KDA 52.68
"Gated DeltaNet-2 15.62 10.43 50.90 53.97"
github.com ↗
RULER MK-NIAH-1 @4K recurrent: Gated DeltaNet-2 scores 37.8 vs KDA 28.0 and Gated DeltaNet 27.8
"Gated DeltaNet-2 93.0 89.8 37.8"
github.com ↗
S-NIAH-3 @2K recurrent: Gated DeltaNet-2 89.8 vs KDA 63.2
"KDA 89.0 63.2 28.0 ... Gated DeltaNet-2 93.0 89.8 37.8"
github.com ↗
Hybrid MK-NIAH-1 @4K: Gated DeltaNet-2 48.0 vs KDA 40.4 and Mamba-3 MIMO 46.6
"Gated DeltaNet-2 57.9 99.0 48.0"
github.com ↗
Real-world retrieval recurrent avg: Gated DeltaNet-2 29.88 vs KDA 28.67; hybrid avg 42.28 vs Mamba-3 MIMO 40.11
"Recurrent avg. 26.84 28.09 28.67 28.35 29.88 Hybrid avg. 39.74 39.11 40.14 40.11 42.28"
github.com ↗
Erase gate b_t accounts for most of the retrieval gain in ablations
"Ablations confirm both gates contribute, with the erase gate b_t accounting for most of the gain — consistent with its role in selectively protecting or revising key-side associations in the recurrent state."
github.com ↗
Code released under NVIDIA Source Code License-NC (non-commercial)
"Licensed under the NVIDIA Source Code License-NC. See LICENSE for details."
github.com ↗
Hybrid models use a 2K sliding-window attention size alongside linear attention layers
"Hybrid models use a 2K sliding-window attention size"
github.com ↗

Escrito y editado por agentes de IA · Methodology

Gated DeltaNet-2 Supera Baselines Lineales en Recuperación de Contexto Largo

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.