Equilibrium Reasoners elevam precisão do Sudoku de 2,6% para 99% via test-time scaling

Nova pesquisa no arXiv (Kolter et al.) formaliza raciocínio iterativo como aprendizado de atratores condicionados à tarefa — sistemas dinâmicos onde pontos fixos correspondem a soluções válidas. Metodologia permite escalar computação em tempo de teste sem chain-of-thought explícito. Perspectiva de arquiteto: framework fundamental para construir sistemas de raciocínio que melhoram com tempo de inferência, não apenas escala de modelo.

Uma equipe de pesquisadores da CMU formalizou por que o raciocínio latente iterativo funciona e construiu um framework de test-time scaling em torno dele. O framework, Equilibrium Reasoners (EqR), eleva a precisão do Sudoku-Extreme de 2,6% para mais de 99% sem verificadores externos ou priors específicos da tarefa.

Os autores Benhao Huang, Zhengyang Geng e Zico Kolter publicaram o trabalho em 20 de maio de 2026. A hipótese central: raciocínio generalizável emerge quando um modelo aprende atratores condicionados à tarefa — sistemas dinâmicos latentes cujos pontos fixos estáveis correspondem a soluções válidas. Em vez de produzir uma resposta em um único passe forward, EqR atualiza iterativamente um estado latente até convergir em um desses pontos fixos.

O framework impulsiona um objetivo de treinamento fundamentado que encoraja a rede a aprender paisagens de atratores, não fazer pattern-matching de distribuições de treinamento. EqR escala computação em tempo de teste ao longo de dois eixos ortogonais. Profundidade: executar mais iterações da atualização latente, empilhando o equivalente a mais camadas de transformer em tempo de inferência. Largura: amostrar múltiplas trajetórias estocásticas a partir de inicializações diferentes e agregar — um análogo em espaço latente de votação por maioria em amostras de chain-of-thought. Nenhum eixo requer um modelo de recompensa ou juiz externo. O sinal de convergência é interno: o modelo para quando o estado latente se estabeleceu em um ponto fixo.

Um modelo feedforward padrão obtém 2,6% no Sudoku-Extreme. EqR, desdobrado ao equivalente de 40.000 camadas, atinge mais de 99%. Para tarefas mais simples, a convergência chega em 1 a 5 passos de iteração, alocando computação adaptativamente baseada na dificuldade do problema em vez de queimar um orçamento fixo por consulta. Ganhos de test-time scaling rastreiam de perto como o modelo converge fortemente em direção a atratores alinhados com solução, dando aos profissionais um diagnóstico mensurável: se o scaling não está ajudando, verifique se a convergência está realmente melhorando.

Nenhuma evidência de deployment em produção acompanha este artigo. Não há figuras publicadas de latência, números de throughput, custos por consulta em dólares ou contagens de GPU-hour para EqR em escala de serving. O mecanismo de convergência de atrator foi demonstrado em tarefas de raciocínio estruturado. A lacuna entre benchmarks combinatórios de brinquedo e tarefas práticas — recuperação multi-hop, geração de código, planejamento de agentes — permanece aberta. Se a paisagem de atrator aprendida em tarefas simbólicas limpas transfere para esses cenários não é abordado.

O risco de integração está no eixo de profundidade. Desdobrar para 40.000 equivalentes de camada em tempo de inferência significa que memória e latência escalam com contagem de iteração. O artigo não caracteriza onde a curva de custo-precisão se dobra, nem se o modelo pode ser destilado ou quantizado sem destruir a geometria de atrator. Escalabilidade em largura via múltiplas inicializações estocásticas mapeia em infraestrutura de inferência em batch existente, mas combinar ambos os eixos simultaneamente multiplicará a pressão de KV-cache em qualquer implementação baseada em transformer.

EqR requer aprender paisagens de atratores durante o treinamento, um desvio da supervisão padrão de next-token ou chain-of-thought. Adotantes precisariam retreinar do zero ou fine-tune com o objetivo EqR. Nenhum checkpoint pronto existe.

Se você está construindo refinamento iterativo em sua stack de inferência, EqR lhe dá um framing mecanístico que substitui "execute mais vezes e torça" por um critério de convergência mensurável. O framework permanece pré-produção e o custo de computação do eixo de profundidade não é caracterizado em escala realista de serving.

Sources

EqR scales test-time compute along depth (more iterations) and breadth (aggregating stochastic trajectories from multiple initializations), without external verifiers or task-specific priors
"EqR scales internal dynamics along two axes: depth, by running more iterations, and breadth, by aggregating stochastic trajectories from multiple initializations. Empirically, gains from test-time scaling are tightly coupled with stronger convergence toward solution-aligned attractors."
arxiv.org ↗
Feedforward baseline scores 2.6% on Sudoku-Extreme; EqR unrolled to 40,000 layer equivalent exceeds 99%
"By unrolling up to the equivalent of 40,000 layers, scalable latent reasoning boosts accuracy from 2.6% for feedforward models to over 99% on Sudoku-Extreme."
arxiv.org ↗
Simple tasks converge in 1 to 5 iteration steps; harder tasks benefit from massive test-time scaling
"While simple cases converge within 1 to 5 iteration steps, harder cases benefit from massive test-time scaling."
arxiv.org ↗
The framework hypothesizes that generalizable reasoning arises from learning task-conditioned attractors whose stable fixed points correspond to valid solutions
"We hypothesize that generalizable reasoning arises from learning task-conditioned attractors: latent dynamical systems whose stable fixed points correspond to valid solutions."
arxiv.org ↗
Paper authored by Benhao Huang, Zhengyang Geng, and Zico Kolter, published 20 May 2026
"AUTHORS: Benhao Huang, Zhengyang Geng, Zico Kolter — PUBLISHED: 2026-05-20T17:59:48Z"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Equilibrium Reasoners elevam precisão do Sudoku de 2,6% para 99% via test-time scaling

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.