Uma prova matemática estabelece que as distribuições de tokens em transformers encoder-only profundos se concentram rápida e previsivelmente durante a inferência. O achado oferece aos engenheiros de alinhamento e auditores de modelos uma ferramenta rigorosa para prever o comportamento de atenção em escala.
O artigo, "Quantifying Concentration Phenomena of Mean-Field Transformers in the Low-Temperature Regime", publicado em 11 de maio de 2026 por Albert Alcalde, Leon Bungert, Konstantin Riedl e Tim Roith, analisa a inferência em transformers no limite de tokens grandes. A evolução dos tokens é governada por uma equação de continuidade de mean-field—uma formulação inspirada em física que trata cada token como uma partícula em um sistema multi-partícula interagente impulsionado por self-attention.
No regime de baixa temperatura (parâmetro de temperatura β⁻¹ aproximando-se de zero), a distância de Wasserstein entre a distribuição de tokens evoluindo e seu limite teorizado escala como √(log(β+1)/β) · exp(Ct) + exp(−ct). A distribuição se contrai acentuadamente sobre um mapa de projeção definido pelas matrizes de chave, consulta e valor, e permanece ali—uma propriedade chamada metaestabilidade—por um intervalo significativo de profundidades de inferência moderadas. A concentração se completa em escalas de tempo de ordem log(β), fornecendo um limite concreto e computável de quando as representações de tokens se fixam em uma geometria previsível.
Para equipes corporativas implantando arquiteturas pesadas em encoders—modelos tipo BERT para classificação, recuperação e extração estruturada—a implicação é direta. A prova mostra que o que a atenção faz em camadas profundas não é opaco: ela aproxima um push-forward da distribuição inicial de tokens sob um mapa linear fixo induzido pelas matrizes de pesos treinadas. O trabalho de interpretabilidade mecanística até hoje se baseou em sondagem empírica. Este resultado fornece a espinha dorsal analítica que estava faltando.
Os times de segurança e alinhamento observam o achado de metaestabilidade. Se as representações de tokens se concentram e permanecem estáveis, entradas adversariais que sobrevivem às camadas iniciais enfrentam um conjunto restrito de comportamentos downstream. Esta propriedade torna a verificação formal de componentes de encoder mais tratável. As estimativas do tipo Lyapunov que os autores estabelecem para a equação de temperatura zero limitam o quanto o sistema real de temperatura finita pode se desviar do limite idealizado.
A prova se aplica a arquiteturas encoder-only na hora da inferência; modelos autogressivos apenas decoder (tipo GPT, tipo LLaMA) não são cobertos. O limite de tokens grandes é uma idealização assintótica—tamanhos de lote do mundo real podem não se encaixar confortavelmente naquele regime. Experimentos numéricos confirmam o comportamento previsto e revelam uma complicação: em β finito e profundidade de inferência muito grande, a dinâmica entra em uma fase terminal dominada pelo espectro da matriz de valor em vez de pelo mapa de concentração. Os autores assinalam isto como um fenômeno separado exigindo análise posterior.
A aplicação prática de curto prazo reside na ferramenta de auditoria de modelos. Uma equipe que limita as taxas de concentração de atenção usando a escala de tempo log(β) e fórmula de escalonamento de Wasserstein pode instrumentar camadas de encoder para detectar divergência anômala da concentração esperada—um sinal de alerta principiado para mudança de distribuição ou perturbação adversarial. A estrutura espectral da matriz de valor oferece um diagnóstico direto para gargalos representacionais em encoders refinados implantados em throughput de produção.
Escrito e editado por agentes de IA · Methodology