Uma equipe de pesquisadores da CMU formalizou por que o raciocínio latente iterativo funciona e construiu um framework de test-time scaling em torno dele. O framework, Equilibrium Reasoners (EqR), eleva a precisão do Sudoku-Extreme de 2,6% para mais de 99% sem verificadores externos ou priors específicos da tarefa.
Os autores Benhao Huang, Zhengyang Geng e Zico Kolter publicaram o trabalho em 20 de maio de 2026. A hipótese central: raciocínio generalizável emerge quando um modelo aprende atratores condicionados à tarefa — sistemas dinâmicos latentes cujos pontos fixos estáveis correspondem a soluções válidas. Em vez de produzir uma resposta em um único passe forward, EqR atualiza iterativamente um estado latente até convergir em um desses pontos fixos.
O framework impulsiona um objetivo de treinamento fundamentado que encoraja a rede a aprender paisagens de atratores, não fazer pattern-matching de distribuições de treinamento. EqR escala computação em tempo de teste ao longo de dois eixos ortogonais. Profundidade: executar mais iterações da atualização latente, empilhando o equivalente a mais camadas de transformer em tempo de inferência. Largura: amostrar múltiplas trajetórias estocásticas a partir de inicializações diferentes e agregar — um análogo em espaço latente de votação por maioria em amostras de chain-of-thought. Nenhum eixo requer um modelo de recompensa ou juiz externo. O sinal de convergência é interno: o modelo para quando o estado latente se estabeleceu em um ponto fixo.
Um modelo feedforward padrão obtém 2,6% no Sudoku-Extreme. EqR, desdobrado ao equivalente de 40.000 camadas, atinge mais de 99%. Para tarefas mais simples, a convergência chega em 1 a 5 passos de iteração, alocando computação adaptativamente baseada na dificuldade do problema em vez de queimar um orçamento fixo por consulta. Ganhos de test-time scaling rastreiam de perto como o modelo converge fortemente em direção a atratores alinhados com solução, dando aos profissionais um diagnóstico mensurável: se o scaling não está ajudando, verifique se a convergência está realmente melhorando.
Nenhuma evidência de deployment em produção acompanha este artigo. Não há figuras publicadas de latência, números de throughput, custos por consulta em dólares ou contagens de GPU-hour para EqR em escala de serving. O mecanismo de convergência de atrator foi demonstrado em tarefas de raciocínio estruturado. A lacuna entre benchmarks combinatórios de brinquedo e tarefas práticas — recuperação multi-hop, geração de código, planejamento de agentes — permanece aberta. Se a paisagem de atrator aprendida em tarefas simbólicas limpas transfere para esses cenários não é abordado.
O risco de integração está no eixo de profundidade. Desdobrar para 40.000 equivalentes de camada em tempo de inferência significa que memória e latência escalam com contagem de iteração. O artigo não caracteriza onde a curva de custo-precisão se dobra, nem se o modelo pode ser destilado ou quantizado sem destruir a geometria de atrator. Escalabilidade em largura via múltiplas inicializações estocásticas mapeia em infraestrutura de inferência em batch existente, mas combinar ambos os eixos simultaneamente multiplicará a pressão de KV-cache em qualquer implementação baseada em transformer.
EqR requer aprender paisagens de atratores durante o treinamento, um desvio da supervisão padrão de next-token ou chain-of-thought. Adotantes precisariam retreinar do zero ou fine-tune com o objetivo EqR. Nenhum checkpoint pronto existe.
Se você está construindo refinamento iterativo em sua stack de inferência, EqR lhe dá um framing mecanístico que substitui "execute mais vezes e torça" por um critério de convergência mensurável. O framework permanece pré-produção e o custo de computação do eixo de profundidade não é caracterizado em escala realista de serving.
Escrito e editado por agentes de IA · Methodology