Modelo Attractor de 27M Supera GPT o3 em Quebra-Cabeças de Lógica

Uma nova arquitetura para transformers com loop usa solução de ponto fixo para refinar representações intermediárias, melhorando raciocínio e tarefas de linguagem mantendo estabilidade no treinamento. Isso oferece uma alternativa ao unrolling — permitindo modelos menores e mais baratos executarem raciocínio mais profundo.

Um Modelo Attractor com 770 milhões de parâmetros supera um Transformer padrão com 1,3 bilhão de parâmetros treinado em duas vezes mais tokens. Uma versão com 27 milhões de parâmetros atinge 91,4% no Sudoku-Extreme, onde GPT o3 e Claude obtêm próximo a zero. Pesquisadores Jacob Fein-Ashley e Paria Rashidinejad publicaram a arquitetura no arXiv em 12 de maio de 2026.

Modelos Attractor são Transformers com loop estruturados em torno da teoria de ponto fixo. Um módulo backbone propõe embeddings de saída iniciais. Um módulo attractor então refina iterativamente esses embeddings até convergência em um ponto fixo. Gradientes fluem através de diferenciação implícita, não backpropagation através de cada loop. Isso mantém memória em tempo de treinamento constante independente da profundidade do loop e permite ao modelo escolher iterações adaptativamente com base em convergência.

Transformers com loop anteriores falharam em duas frentes: gradientes explodindo ou desaparecendo que desestabilizam loops profundos, e profundidade de recorrência fixa que força um cronograma de computação rígido em tempo de treinamento. Como computação de gradiente não desenrola através de iterações, memória GPU não cresce com contagem de loop. Isso importa para deployments em empresa: teto de memória frequentemente determina o tamanho máximo de modelo que cabe em hardware disponível.

Em pré-treinamento de modelo de linguagem em larga escala, Modelos Attractor alcançam melhores razões perplexidade-para-parâmetro em todos os tamanhos testados, reduzindo perplexidade em até 46,6% e melhorando acurácia de tarefa downstream em até 19,7% com custo de treinamento menor. A comparação 770M-vs-1,3B é operacionalmente significante: times podem atingir qualidade equivalente com aproximadamente metade da contagem de parâmetro e metade do orçamento de token de treinamento, cortando tanto FLOPS de serving quanto computação de pré-treinamento.

Em tarefas de satisfação de restrição, a lacuna se amplia. O Modelo Attractor de 27M com aproximadamente 1.000 exemplos de treinamento atinge 91,4% no Sudoku-Extreme e 93,1% no Maze-Hard. GPT o3 e Claude obtêm próximo a zero. A formulação de ponto fixo naturalmente codifica propagação de restrição iterativa, enquanto heurísticas aprendidas em modelos de fronteira não generalizam para tamanhos de grade maiores.

Modelos Attractor exibem outra propriedade: internalização de equilíbrio. Como o embedding inicial do backbone já fica próximo ao ponto de convergência, o módulo attractor pode ser desativado em tempo de inferência com perda mínima de acurácia. Sistemas restritos por latência podem sacrificar pequena quantidade de acurácia para evitar custo de iteração, ou reverter para inferência de profundidade total quando acurácia é priorizada.

Limitações existem. Benchmarks estão em tarefas controladas — Sudoku e Mazes — não problemas chain-of-thought em aberto em escala de modelo de fronteira. O paper não relata latência de inferência wall-clock, então custo de iteração adaptativa não é completamente caracterizado. Diferenciação implícita requer tuning numérico cuidadoso em sistemas de produção.

Se as alegações de eficiência de treinamento se replicam em escala, modelos com loop de ponto fixo se tornam operacionalmente relevantes. Uma arquitetura eficiente em parâmetro que raciocina melhor e treina mais barato muda decisões de seleção de modelo em empresa.

Sources

770M Attractor Model outperforms a 1.3B Transformer trained on twice as many tokens
"a 770M Attractor Model outperforms a 1.3B Transformer trained on twice as many tokens"
arxiv.org ↗
27M parameter model achieves 91.4% on Sudoku-Extreme and 93.1% on Maze-Hard
"our model with only 27M parameters and approximately 1000 examples achieves 91.4% accuracy on Sudoku-Extreme and 93.1% on Maze-Hard"
arxiv.org ↗
GPT o3 and Claude fail completely on Sudoku-Extreme and Maze-Hard at larger sizes
"scaling favorably where frontier models like Claude and GPT o3, fail completely, and specialized recursive reasoners collapse at larger sizes"
arxiv.org ↗
Attractor Models reduce perplexity by up to 46.6% and improve downstream accuracy by up to 19.7%
"improving perplexity by up to 46.6% and downstream accuracy by up to 19.7% while reducing training cost"
arxiv.org ↗
Training memory remains constant in effective depth via implicit differentiation
"training memory remains constant in effective depth, and iterations are chosen adaptively by convergence"
arxiv.org ↗
Equilibrium internalization allows the attractor solver to be removed at inference time with little degradation
"fixed-point training places the model's initial output embedding near equilibrium, allowing the solver to be removed at inference time with little degradation"
arxiv.org ↗
Authors are Jacob Fein-Ashley and Paria Rashidinejad; published May 12 2026
"Solve the Loop: Attractor Models for Language and Reasoning"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Modelo Attractor de 27M Supera GPT o3 em Quebra-Cabeças de Lógica

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.