Equilibrium Reasoners elevan la precisión del Sudoku de 2,6% a 99% mediante test-time scaling

Nueva investigación en arXiv (Kolter et al.) formaliza el razonamiento iterativo como aprendizaje de atractores condicionados a la tarea — sistemas dinámicos donde los puntos fijos corresponden a soluciones válidas. La metodología permite escalar la computación en tiempo de prueba sin chain-of-thought explícito. Perspectiva de arquitecto: framework fundamental para construir sistemas de razonamiento que mejoran con tiempo de inferencia, no solo escala de modelo.

Un equipo de investigadores del CMU ha formalizado por qué funciona el razonamiento latente iterativo y ha construido un framework de test-time scaling en torno a él. El framework, Equilibrium Reasoners (EqR), eleva la precisión de Sudoku-Extreme de 2,6% a más de 99% sin verificadores externos ni priors específicos de la tarea.

Los autores Benhao Huang, Zhengyang Geng y Zico Kolter publicaron el trabajo el 20 de mayo de 2026. La hipótesis central: el razonamiento generalizable emerge cuando un modelo aprende atractores condicionados a la tarea — sistemas dinámicos latentes cuyos puntos fijos estables corresponden a soluciones válidas. En lugar de producir una respuesta en un único pase forward, EqR actualiza iterativamente un estado latente hasta que converge en uno de esos puntos fijos.

El framework impulsa un objetivo de entrenamiento fundamentado que alienta a la red a aprender paisajes de atractores, no a hacer coincidencia de patrones de distribuciones de entrenamiento. EqR escala la computación en tiempo de prueba a lo largo de dos ejes ortogonales. Profundidad: ejecutar más iteraciones de la actualización latente, apilando el equivalente de más capas de transformer en tiempo de inferencia. Amplitud: muestrear múltiples trayectorias estocásticas a partir de diferentes inicializaciones y agregarlas — un análogo en espacio latente de votación por mayoría entre muestras de chain-of-thought. Ninguno de los dos ejes requiere un modelo de recompensa o un juez externo. La señal de convergencia es interna: el modelo se detiene cuando el estado latente se ha establecido en un punto fijo.

Un modelo feedforward estándar obtiene 2,6% en Sudoku-Extreme. EqR, desplegado al equivalente de 40.000 capas, alcanza más de 99%. Para tareas más simples, la convergencia llega en 1 a 5 pasos de iteración, asignando computación adaptativamente según la dificultad del problema en lugar de gastar un presupuesto fijo por consulta. Las ganancias de test-time scaling se alinean estrechamente con la fuerza con que el modelo converge hacia atractores alineados con la solución, proporcionando a los profesionales un diagnóstico medible: si el escalado no está ayudando, verifique si la convergencia está realmente mejorando.

Ninguna evidencia de despliegue en producción acompaña este documento. No hay cifras de latencia publicadas, números de throughput, costos en dólares por consulta o conteos de GPU-hora para EqR en escala de serving. El mecanismo de convergencia de atractor ha sido demostrado en tareas de razonamiento estructurado. La brecha entre benchmarks combinatorios de juguete y tareas prácticas — recuperación multihop, generación de código, planificación de agentes — permanece abierta. Si el paisaje de atractor aprendido en tareas simbólicas limpas se transfiere a esos escenarios no se aborda.

El riesgo de integración está en el eje de profundidad. Desplegar a 40.000 equivalentes de capa en tiempo de inferencia significa que la memoria y la latencia se escalan con el conteo de iteraciones. El documento no caracteriza dónde se dobla la curva costo-precisión, ni si el modelo puede ser destilado o cuantizado sin destruir la geometría del atractor. El escalado de amplitud mediante múltiples inicializaciones estocásticas se mapea a infraestructura de inferencia por lotes existente, pero combinar ambos ejes simultáneamente multiplicará la presión del KV-cache en cualquier implementación basada en transformer.

EqR requiere aprender paisajes de atractores durante el entrenamiento, una desviación de la supervisión estándar de next-token o chain-of-thought. Los usuarios necesitarían entrenar desde cero o fine-tune con el objetivo EqR. No existe un checkpoint listo para usar.

Si estás construyendo refinamiento iterativo en tu stack de inferencia, EqR te proporciona un framing mecanístico que reemplaza "ejecuta más veces y espera" por un criterio de convergencia medible. El framework sigue siendo pre-producción y el costo de computación del eje de profundidad no se caracteriza a escala realista de serving.

Sources

EqR scales test-time compute along depth (more iterations) and breadth (aggregating stochastic trajectories from multiple initializations), without external verifiers or task-specific priors
"EqR scales internal dynamics along two axes: depth, by running more iterations, and breadth, by aggregating stochastic trajectories from multiple initializations. Empirically, gains from test-time scaling are tightly coupled with stronger convergence toward solution-aligned attractors."
arxiv.org ↗
Feedforward baseline scores 2.6% on Sudoku-Extreme; EqR unrolled to 40,000 layer equivalent exceeds 99%
"By unrolling up to the equivalent of 40,000 layers, scalable latent reasoning boosts accuracy from 2.6% for feedforward models to over 99% on Sudoku-Extreme."
arxiv.org ↗
Simple tasks converge in 1 to 5 iteration steps; harder tasks benefit from massive test-time scaling
"While simple cases converge within 1 to 5 iteration steps, harder cases benefit from massive test-time scaling."
arxiv.org ↗
The framework hypothesizes that generalizable reasoning arises from learning task-conditioned attractors whose stable fixed points correspond to valid solutions
"We hypothesize that generalizable reasoning arises from learning task-conditioned attractors: latent dynamical systems whose stable fixed points correspond to valid solutions."
arxiv.org ↗
Paper authored by Benhao Huang, Zhengyang Geng, and Zico Kolter, published 20 May 2026
"AUTHORS: Benhao Huang, Zhengyang Geng, Zico Kolter — PUBLISHED: 2026-05-20T17:59:48Z"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Equilibrium Reasoners elevan la precisión del Sudoku de 2,6% a 99% mediante test-time scaling

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.