Prova Matemática Mostra que Atenção em Transformers Estabiliza Previsivelmente

Uma prova matemática estabelece que as distribuições de tokens em transformers encoder-only profundos se concentram rápida e previsivelmente durante a inferência. O achado oferece aos engenheiros de alinhamento e auditores de modelos uma ferramenta rigorosa para prever o comportamento de atenção em escala.

O artigo, "Quantifying Concentration Phenomena of Mean-Field Transformers in the Low-Temperature Regime", publicado em 11 de maio de 2026 por Albert Alcalde, Leon Bungert, Konstantin Riedl e Tim Roith, analisa a inferência em transformers no limite de tokens grandes. A evolução dos tokens é governada por uma equação de continuidade de mean-field—uma formulação inspirada em física que trata cada token como uma partícula em um sistema multi-partícula interagente impulsionado por self-attention.

No regime de baixa temperatura (parâmetro de temperatura β⁻¹ aproximando-se de zero), a distância de Wasserstein entre a distribuição de tokens evoluindo e seu limite teorizado escala como √(log(β+1)/β) · exp(Ct) + exp(−ct). A distribuição se contrai acentuadamente sobre um mapa de projeção definido pelas matrizes de chave, consulta e valor, e permanece ali—uma propriedade chamada metaestabilidade—por um intervalo significativo de profundidades de inferência moderadas. A concentração se completa em escalas de tempo de ordem log(β), fornecendo um limite concreto e computável de quando as representações de tokens se fixam em uma geometria previsível.

Para equipes corporativas implantando arquiteturas pesadas em encoders—modelos tipo BERT para classificação, recuperação e extração estruturada—a implicação é direta. A prova mostra que o que a atenção faz em camadas profundas não é opaco: ela aproxima um push-forward da distribuição inicial de tokens sob um mapa linear fixo induzido pelas matrizes de pesos treinadas. O trabalho de interpretabilidade mecanística até hoje se baseou em sondagem empírica. Este resultado fornece a espinha dorsal analítica que estava faltando.

Os times de segurança e alinhamento observam o achado de metaestabilidade. Se as representações de tokens se concentram e permanecem estáveis, entradas adversariais que sobrevivem às camadas iniciais enfrentam um conjunto restrito de comportamentos downstream. Esta propriedade torna a verificação formal de componentes de encoder mais tratável. As estimativas do tipo Lyapunov que os autores estabelecem para a equação de temperatura zero limitam o quanto o sistema real de temperatura finita pode se desviar do limite idealizado.

A prova se aplica a arquiteturas encoder-only na hora da inferência; modelos autogressivos apenas decoder (tipo GPT, tipo LLaMA) não são cobertos. O limite de tokens grandes é uma idealização assintótica—tamanhos de lote do mundo real podem não se encaixar confortavelmente naquele regime. Experimentos numéricos confirmam o comportamento previsto e revelam uma complicação: em β finito e profundidade de inferência muito grande, a dinâmica entra em uma fase terminal dominada pelo espectro da matriz de valor em vez de pelo mapa de concentração. Os autores assinalam isto como um fenômeno separado exigindo análise posterior.

A aplicação prática de curto prazo reside na ferramenta de auditoria de modelos. Uma equipe que limita as taxas de concentração de atenção usando a escala de tempo log(β) e fórmula de escalonamento de Wasserstein pode instrumentar camadas de encoder para detectar divergência anômala da concentração esperada—um sinal de alerta principiado para mudança de distribuição ou perturbação adversarial. A estrutura espectral da matriz de valor oferece um diagnóstico direto para gargalos representacionais em encoders refinados implantados em throughput de produção.

Sources

Token distributions in deep encoder-only transformers concentrate rapidly onto a push-forward of the initial distribution under a projection map induced by the key, query, and value matrices
"we prove that the token distribution rapidly concentrates onto the push-forward of the initial distribution under a projection map induced by the key, query, and value matrices, and remains metastable for moderate times"
arxiv.org ↗
Wasserstein distance between evolving token distribution and the limiting distribution scales as √(log(β+1)/β)·exp(Ct) + exp(−ct)
"the Wasserstein distance of the two distributions scales like $\sqrt{{\log(β+1)}/β}\exp(Ct)+\exp(-ct)$ in terms of the temperature parameter $β^{-1}\to 0$ and inference time $t\geq 0$"
arxiv.org ↗
Concentration completes on time scales of order log(β)
"Our result implies that for time scales of order $\logβ$ the token distribution concentrates at the identified limiting distribution"
arxiv.org ↗
Token evolution at inference is described by a mean-field continuity equation in the large-token limit
"we study the evolution of tokens in deep encoder-only transformers at inference time which is described in the large-token limit by a mean-field continuity equation"
arxiv.org ↗
The authors establish Lyapunov-type estimates for the zero-temperature equation and employ a stability estimate in Wasserstein space together with a quantitative Laplace principle
"we establish Lyapunov-type estimates for the zero-temperature equation, identify its limit as $t\to\infty$, and employ a stability estimate in Wasserstein space together with a quantitative Laplace principle to couple the two equations"
arxiv.org ↗
At finite β and large inference depth, dynamics enter a terminal phase dominated by the spectrum of the value matrix
"for finite $β$ and large $t$ the dynamics enter a different terminal phase, dominated by the spectrum of the value matrix"
arxiv.org ↗
Paper authored by Albert Alcalde, Leon Bungert, Konstantin Riedl, and Tim Roith, published May 11, 2026
"AUTHORS: Albert Alcalde, Leon Bungert, Konstantin Riedl, Tim Roith PUBLISHED: 2026-05-11T17:58:14Z"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Prova Matemática Mostra que Atenção em Transformers Estabiliza Previsivelmente

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.