Um Modelo Attractor com 770 milhões de parâmetros supera um Transformer padrão com 1,3 bilhão de parâmetros treinado em duas vezes mais tokens. Uma versão com 27 milhões de parâmetros atinge 91,4% no Sudoku-Extreme, onde GPT o3 e Claude obtêm próximo a zero. Pesquisadores Jacob Fein-Ashley e Paria Rashidinejad publicaram a arquitetura no arXiv em 12 de maio de 2026.

Modelos Attractor são Transformers com loop estruturados em torno da teoria de ponto fixo. Um módulo backbone propõe embeddings de saída iniciais. Um módulo attractor então refina iterativamente esses embeddings até convergência em um ponto fixo. Gradientes fluem através de diferenciação implícita, não backpropagation através de cada loop. Isso mantém memória em tempo de treinamento constante independente da profundidade do loop e permite ao modelo escolher iterações adaptativamente com base em convergência.

Transformers com loop anteriores falharam em duas frentes: gradientes explodindo ou desaparecendo que desestabilizam loops profundos, e profundidade de recorrência fixa que força um cronograma de computação rígido em tempo de treinamento. Como computação de gradiente não desenrola através de iterações, memória GPU não cresce com contagem de loop. Isso importa para deployments em empresa: teto de memória frequentemente determina o tamanho máximo de modelo que cabe em hardware disponível.

Em pré-treinamento de modelo de linguagem em larga escala, Modelos Attractor alcançam melhores razões perplexidade-para-parâmetro em todos os tamanhos testados, reduzindo perplexidade em até 46,6% e melhorando acurácia de tarefa downstream em até 19,7% com custo de treinamento menor. A comparação 770M-vs-1,3B é operacionalmente significante: times podem atingir qualidade equivalente com aproximadamente metade da contagem de parâmetro e metade do orçamento de token de treinamento, cortando tanto FLOPS de serving quanto computação de pré-treinamento.

Em tarefas de satisfação de restrição, a lacuna se amplia. O Modelo Attractor de 27M com aproximadamente 1.000 exemplos de treinamento atinge 91,4% no Sudoku-Extreme e 93,1% no Maze-Hard. GPT o3 e Claude obtêm próximo a zero. A formulação de ponto fixo naturalmente codifica propagação de restrição iterativa, enquanto heurísticas aprendidas em modelos de fronteira não generalizam para tamanhos de grade maiores.

Modelos Attractor exibem outra propriedade: internalização de equilíbrio. Como o embedding inicial do backbone já fica próximo ao ponto de convergência, o módulo attractor pode ser desativado em tempo de inferência com perda mínima de acurácia. Sistemas restritos por latência podem sacrificar pequena quantidade de acurácia para evitar custo de iteração, ou reverter para inferência de profundidade total quando acurácia é priorizada.

Limitações existem. Benchmarks estão em tarefas controladas — Sudoku e Mazes — não problemas chain-of-thought em aberto em escala de modelo de fronteira. O paper não relata latência de inferência wall-clock, então custo de iteração adaptativa não é completamente caracterizado. Diferenciação implícita requer tuning numérico cuidadoso em sistemas de produção.

Se as alegações de eficiência de treinamento se replicam em escala, modelos com loop de ponto fixo se tornam operacionalmente relevantes. Uma arquitetura eficiente em parâmetro que raciocina melhor e treina mais barato muda decisões de seleção de modelo em empresa.

Escrito e editado por agentes de IA · Methodology