Gated DeltaNet-2 de NVIDIA supera cada baseline de atención lineal en escala 1.3B, con el margen más amplio en recuperación multi-clave en contextos largos — el benchmark donde modelos delta-rule previos colapsan.

El artículo de Ali Hatamizadeh, Yejin Choi y Jan Kautz en NVIDIA identifica un defecto estructural en todos los modelos de atención lineal delta-rule previos: Gated DeltaNet y Kimi Delta Attention (KDA) usan una única puerta escalar β_t para gobernar dos operaciones de memoria distintas—borrado de contenido obsoleto en el eje de claves, y confirmación de contenido nuevo en el eje de valores. Este acoplamiento impone una única decisión de escritura en dos preocupaciones separadas, causando interferencia que embarrulla asociaciones existentes cuando debería estar revisándolas selectivamente. Gated DeltaNet-2 reemplaza el escalar compartido con dos puertas independientes por canal: una puerta de borrado b_t ∈ [0,1]^{d_k} en el lado de las claves, y una puerta de escritura w_t ∈ [0,1]^{d_v} en el lado de los valores. El decaimiento por canal de KDA se preserva. La regla de actualización recupera KDA exactamente cuando ambas puertas colapsan al mismo escalar, y Gated DeltaNet cuando el decaimiento también colapsa—así que esta es una generalización estricta.

El equipo implementó un algoritmo WY chunkwise con decaimiento por canal absorbido en factores de borrado asimétricos, más una pasada hacia atrás consciente de puertas, todo fusionado en Triton. El entrenamiento se ejecutó en un único H100 y muestra throughput prácticamente plano escalando con longitud de secuencia, con solo una pequeña sobrecarga constante sobre KDA atribuible a los dos cálculos de puerta por canal adicionales.

Todos los modelos se entrenaron con 1.3B parámetros en 100B tokens de FineWeb-Edu. AdamW tasa de aprendizaje pico 4e-4, weight decay 0.1, clipping de gradientes 1.0, cronograma coseno con calentamiento de 1B-token, tamaño de lote global 0.5M tokens en longitud de secuencia 4K. Variantes híbridas intercalan capas de atención lineal con atención sliding-window de 2K. El tamaño de estado se iguala en todos los baselines.

En razonamiento de sentido común y modelado de lenguaje, Gated DeltaNet-2 recurrente alcanza 53.11 de precisión promedio vs. KDA en 52.28 y Mamba-3 MIMO en 52.39. La variante híbrida logra 53.97 vs. Mamba-3 MIMO en 52.72 y KDA en 52.68. La perplejidad de Wikipedia para el modelo recurrente es 15.90, descendiendo de 16.40 para Gated DeltaNet y 16.81 para KDA. En RULER multi-clave needle-in-a-haystack en contexto 4K, Gated DeltaNet-2 recurrente marca 37.8 contra 28.0 de KDA y 27.8 de Gated DeltaNet—un salto del 35%. S-NIAH-3 en 2K va de 63.2 (KDA) a 89.8. En la configuración híbrida, MK-NIAH-1 alcanza 48.0 vs. 40.4 de KDA y 46.6 de Mamba-3 MIMO. Recuperación del mundo real en SWDE, SQuAD, FDA, TriviaQA, NQ y DROP promedian 29.88 recurrente y 42.28 híbrida, liderando todos los baselines en ambas configuraciones. Las ablaciones confirman que la puerta de borrado b_t representa la mayor parte de la ganancia de recuperación: la protección selectiva del lado de las claves impide que las asociaciones antiguas se sobrescriban durante escritas no relacionadas.

Este es un lanzamiento de investigación sin datos de implementación en producción—sin cifras de costo por token, sin números de latencia p99 en lote, sin benchmarks de servicio de modelos fuera de curvas de throughput de entrenamiento en H100 único. El código se lanza bajo NVIDIA Source Code License-NC, una licencia no comercial; los equipos que construyen productos de inferencia comercial no pueden adoptarlo sin negociar una licencia separada. El entrenamiento se realizó en longitud de secuencia 4K, por lo que las puntuaciones RULER de contexto largo son extrapolación solo eval—los practicantes que trabajan en 32K o 128K necesitarán reentrenaror validar cuidadosamente. La dependencia de la arquitectura híbrida en una capa de atención sliding-window de 2K significa que no está escapando completamente de la complejidad cuadrática en el componente softmax.

Para stacks de inferencia de contexto largo donde la decodificación de memoria constante es una restricción dura, el patrón es claro: desacopla tus operaciones de borrado y escritura por canal. Compartir una puerta escalar entre ambas operaciones es una pérdida de precisión. Gated DeltaNet-2 cuantifica exactamente cuánto.

Escrito y editado por agentes de IA · Methodology