Demostración Matemática Muestra que la Atención en Transformers se Estabiliza Predeciblemente

Una demostración matemática establece que las distribuciones de tokens en transformers encoder-only profundos se concentran rápida y predeciblemente durante la inferencia. El hallazgo proporciona a los ingenieros de alineamiento y auditores de modelos una herramienta rigurosa para pronosticar el comportamiento de atención a escala.

El artículo, "Quantifying Concentration Phenomena of Mean-Field Transformers in the Low-Temperature Regime", publicado el 11 de mayo de 2026 por Albert Alcalde, Leon Bungert, Konstantin Riedl y Tim Roith, analiza la inferencia en transformers en el límite de tokens grandes. La evolución de los tokens se rige por una ecuación de continuidad de mean-field—una formulación inspirada en la física que trata cada token como una partícula en un sistema multi-partícula interactuante impulsado por self-attention.

En el régimen de baja temperatura (parámetro de temperatura β⁻¹ aproximándose a cero), la distancia de Wasserstein entre la distribución de tokens evolucionando y su límite teorizado escala como √(log(β+1)/β) · exp(Ct) + exp(−ct). La distribución se contrae fuertemente sobre un mapa de proyección definido por las matrices clave, consulta y valor, y permanece allí—una propiedad llamada metaestabilidad—durante un lapso significativo de profundidades de inferencia moderadas. La concentración se completa en escalas de tiempo de orden log(β), proporcionando un límite concreto y computable de cuándo las representaciones de tokens se fijan en una geometría predecible.

Para equipos empresariales que implementan arquitecturas pesadas en encoders—modelos tipo BERT para clasificación, recuperación y extracción estructurada—la implicación es directa. La demostración muestra que lo que hace la atención en capas profundas no es opaco: aproxima un push-forward de la distribución inicial de tokens bajo un mapa lineal fijo inducido por matrices de pesos entrenadas. El trabajo de interpretabilidad mecanística hasta ahora se ha apoyado en sondeo empírico. Este resultado proporciona la columna vertebral analítica que faltaba.

Los equipos de seguridad y alineamiento señalan el hallazgo de metaestabilidad. Si las representaciones de tokens se concentran y permanecen estables, las entradas adversariales que sobreviven a las capas iniciales enfrentan un conjunto restringido de comportamientos aguas abajo. Esta propiedad hace más viable la verificación formal de componentes de encoder. Las estimaciones tipo Lyapunov que los autores establecen para la ecuación de temperatura cero acotan cuánto el sistema real de temperatura finita puede desviarse del límite idealizado.

La demostración se aplica a arquitecturas encoder-only en tiempo de inferencia; los modelos solo decoder autorregresivos (tipo GPT, tipo LLaMA) no están cubiertos. El límite de tokens grandes es una idealización asintótica—los tamaños de lote del mundo real podrían no caber cómodamente en ese régimen. Los experimentos numéricos confirman el comportamiento predicho y revelan una complejidad: en β finito y profundidad de inferencia muy grande, la dinámica entra en una fase terminal dominada por el espectro de la matriz de valor en lugar de por el mapa de concentración. Los autores señalan esto como un fenómeno separado que requiere análisis posterior.

La aplicación práctica a corto plazo radica en herramientas de auditoría de modelos. Un equipo que acota las tasas de concentración de atención usando la escala de tiempo log(β) y fórmula de escalamiento de Wasserstein puede instrumentar capas de encoder para detectar divergencia anómala de la concentración esperada—una señal de alerta principiada para cambio de distribución o perturbación adversarial. La estructura espectral de la matriz de valor ofrece un diagnóstico directo para cuellos de botella representacionales en encoders ajustados implementados en throughput de producción.

Sources

Token distributions in deep encoder-only transformers concentrate rapidly onto a push-forward of the initial distribution under a projection map induced by the key, query, and value matrices
"we prove that the token distribution rapidly concentrates onto the push-forward of the initial distribution under a projection map induced by the key, query, and value matrices, and remains metastable for moderate times"
arxiv.org ↗
Wasserstein distance between evolving token distribution and the limiting distribution scales as √(log(β+1)/β)·exp(Ct) + exp(−ct)
"the Wasserstein distance of the two distributions scales like $\sqrt{{\log(β+1)}/β}\exp(Ct)+\exp(-ct)$ in terms of the temperature parameter $β^{-1}\to 0$ and inference time $t\geq 0$"
arxiv.org ↗
Concentration completes on time scales of order log(β)
"Our result implies that for time scales of order $\logβ$ the token distribution concentrates at the identified limiting distribution"
arxiv.org ↗
Token evolution at inference is described by a mean-field continuity equation in the large-token limit
"we study the evolution of tokens in deep encoder-only transformers at inference time which is described in the large-token limit by a mean-field continuity equation"
arxiv.org ↗
The authors establish Lyapunov-type estimates for the zero-temperature equation and employ a stability estimate in Wasserstein space together with a quantitative Laplace principle
"we establish Lyapunov-type estimates for the zero-temperature equation, identify its limit as $t\to\infty$, and employ a stability estimate in Wasserstein space together with a quantitative Laplace principle to couple the two equations"
arxiv.org ↗
At finite β and large inference depth, dynamics enter a terminal phase dominated by the spectrum of the value matrix
"for finite $β$ and large $t$ the dynamics enter a different terminal phase, dominated by the spectrum of the value matrix"
arxiv.org ↗
Paper authored by Albert Alcalde, Leon Bungert, Konstantin Riedl, and Tim Roith, published May 11, 2026
"AUTHORS: Albert Alcalde, Leon Bungert, Konstantin Riedl, Tim Roith PUBLISHED: 2026-05-11T17:58:14Z"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Demostración Matemática Muestra que la Atención en Transformers se Estabiliza Predeciblemente

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.