Purdue e Georgia Tech Provam que Transformers Extraem Features Não-lineares em Contexto

Pesquisadores na Purdue University e Georgia Institute of Technology produziram a primeira prova teórica explícita de que mecanismos de atenção em transformers realizam extração de features não-lineares durante aprendizado em contexto (ICL) — fechando uma lacuna de longa data na teoria subjacente a todo modelo de fundação capaz de few-shot implantado em escala empresarial hoje.

O paper, "Understanding In-Context Learning for Nonlinear Regression with Transformers: Attention as Featurizer" (arXiv 2605.05176), é de autoria de Alexander Hsu e Rongjie Lai (Purdue) e Zhaiming Shen e Wenjing Liao (Georgia Tech). Teoria anterior de ICL assumia tarefas de regressão linear — uma simplificação que tornava a matemática tratável mas deixava comportamento não-linear do mundo real inexplicado. Este trabalho explicitamente constrói redes transformer que realizam features não-lineares tais como bases polinomiais ou spline diretamente através do mecanismo de interação de atenção, sem componente separado de extração de features.

A construção central é um transformer de atenção ativado por ReLU, end-to-end. Ao invés de delegar aprendizado de features às camadas feed-forward como em arquiteturas modulares anteriores, a equipe mostra que pesos de atenção podem realizar operações aritméticas interpretáveis em contexto que featurizam o prompt. Uma camada final de atenção linear então aproxima a solução do problema resultante de least-squares. O resultado é uma rede rasa, larga — profundidade é independente da precisão de aproximação desejada — que constrói representações polinomiais e spline sem erro de aproximação na própria fase de featurização.

O ganho teórico é um limite de erro de generalização completo expresso em duas quantidades que praticantes podem controlar diretamente: comprimento de contexto (o número de exemplos em contexto no prompt) e tamanho do conjunto de treinamento. O limite se decompõe em erro de aproximação e erro estatístico, dando aos designers uma alavanca principiada para cada um. Experimentos de regressão sintética validam os limites quantitativamente e benchmarkam a construção contra transformers completamente lineares e softmax padrão.

Para arquitetos de IA empresariais, as implicações correm mais fundo que interesse acadêmico. ICL é o mecanismo por trás de prompting few-shot em modelos classe GPT-4, e a maioria das intuições de engenharia de prompt foram empiricamente derivadas sem fundamentação teórica. Este framework agora fornece uma base rigorosa para por que prompts mais longos e bem-estruturados melhoram o desempenho em tarefas não-lineares — comprimento de contexto reduz diretamente erro estatístico — e por que templates de prompt que implicitamente codificam as funções base certas superam os genéricos. Equipes de plataforma construindo pipelines RAG ou wrappers few-shot estruturados ao redor de APIs de modelo de fundação podem agora seguir isto como um princípio de design.

O trabalho também se intersecciona com esforço teórico paralelo da Ohio State University e Singapore University of Technology and Design (arXiv 2507.20443), que fornece a primeira análise formal de dinâmica de treinamento para ICL em uma classe ampla de funções de regressão não-linear. Este paper identifica a constante de Lipschitz L da classe de função alvo como o fator-chave governando velocidade de convergência, com uma transição de fase entre um regime de curvatura plana (L pequeno, passos de gradiente maiores tolerados) e um regime de curvatura acentuada (L grande, passos menores requeridos). Juntos, os dois papers envolvem o problema: o paper Purdue/Georgia Tech diz o que a rede treinada computa, e o paper Ohio State diz quão rápido chega lá durante pré-treinamento.

As ressalvas são significativas. Ambos os papers trabalham em regimes simplificados de uma camada ou rede rasa que são analiticamente tratáveis mas distantes de modelos de produção com 70B parâmetros. Os experimentos sintéticos validam teoria mas não benchmarkam contra tarefas reais ou distribuições de dados reais. Os limites de generalização são finite-sample mas podem ser soltos para os comprimentos de prompt típicos em aplicações implantadas.

Validação empírica é agora a prioridade. A predição teórica — que comprimento de contexto de prompt e templating alinhado a features produzem ganhos previsíveis, separáveis em tarefas não-lineares — é específica o suficiente para testar contra workloads empresariais reais. Equipes rodando inferência de alto volume em tarefas de predição estruturada podem agora agir sobre esta hipótese falsificável.

Sources

Researchers explicitly construct transformer networks to realize nonlinear features through the attention mechanism itself, building an end-to-end transformer with ReLU-activated attention for nonlinear regression
"we shift the approximation power to the attention mechanism itself, building an end-to-end transformer with ReLU-activated attention for the entire pipeline of nonlinear regression with fixed features"
arxiv.org ↗
Authors are Alexander Hsu and Rongjie Lai (Purdue) and Zhaiming Shen and Wenjing Liao (Georgia Tech)
"A. Hsu (hsu297@purdue.edu) is with the Department of Mathematics, Purdue University. Z. Shen (zshen49@gatech.edu) is with the School of Mathematics, Georgia Institute of Technology. W. Liao (wliao60@gatech.edu) is with the School of Mathematics, Georgia Institute of Technology. R. Lai (lairj@purdue.edu) is with the Department of Mathematics, Purdue University."
arxiv.org ↗
Prior ICL theory focused almost exclusively on linear regression settings
"Whereas most existing theory has focused on linear models, we study ICL in the nonlinear regression setting."
arxiv.org ↗
The attention weights perform interpretable in-context arithmetic operations to featurize the prompt; a final linear attention layer approximates the least-squares solution
"The prompt is featurized with interpretable attention weights performing basic arithmetic operations in-context, and a final linear attention layer approximates the solution to the resulting least squares problem."
arxiv.org ↗
The network is shallow, with depth independent of desired accuracy, and constructs polynomial and spline features without approximation error
"our transformer networks are shallow, with depth independent of desired accuracy, and we are able to construct the featurization (polynomials and splines) without any error."
arxiv.org ↗
Generalization error bounds are derived in terms of context length and training set size, following a bias-variance decomposition into approximation and statistical errors
"We derive complete generalization error bounds in terms of context length and training set size, which follow a bias-variance decomposition into approximation and statistical errors."
arxiv.org ↗
A companion paper from Ohio State and Singapore UT identifies the Lipschitz constant L as the key factor governing convergence dynamics, with a phase transition between flat and sharp curvature regimes
"We discover a phase transition in training dynamics governed by the Lipschitz constant L. When L is below a threshold of order Θ(1/Δδ), the flat curvature regime yields smaller gradients and permits larger step sizes to converge. When L exceeds the threshold, the sharp-curvature regime produces larger gradients requiring smaller steps."
arxiv.org ↗
The Ohio State paper provides the first formal training-dynamics analysis of ICL for a broad class of nonlinear regression functions, proving gradient descent achieves near-zero training loss in polynomial time
"This paper presents the first formal analysis of ICL training dynamics for a broad class of nonlinear regression functions... We prove that gradient descent achieves near-zero training loss in polynomial time across both flat and sharp L-regimes."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Purdue e Georgia Tech Provam que Transformers Extraem Features Não-lineares em Contexto

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.