Un equipo de investigadores del CMU ha formalizado por qué funciona el razonamiento latente iterativo y ha construido un framework de test-time scaling en torno a él. El framework, Equilibrium Reasoners (EqR), eleva la precisión de Sudoku-Extreme de 2,6% a más de 99% sin verificadores externos ni priors específicos de la tarea.

Los autores Benhao Huang, Zhengyang Geng y Zico Kolter publicaron el trabajo el 20 de mayo de 2026. La hipótesis central: el razonamiento generalizable emerge cuando un modelo aprende atractores condicionados a la tarea — sistemas dinámicos latentes cuyos puntos fijos estables corresponden a soluciones válidas. En lugar de producir una respuesta en un único pase forward, EqR actualiza iterativamente un estado latente hasta que converge en uno de esos puntos fijos.

El framework impulsa un objetivo de entrenamiento fundamentado que alienta a la red a aprender paisajes de atractores, no a hacer coincidencia de patrones de distribuciones de entrenamiento. EqR escala la computación en tiempo de prueba a lo largo de dos ejes ortogonales. Profundidad: ejecutar más iteraciones de la actualización latente, apilando el equivalente de más capas de transformer en tiempo de inferencia. Amplitud: muestrear múltiples trayectorias estocásticas a partir de diferentes inicializaciones y agregarlas — un análogo en espacio latente de votación por mayoría entre muestras de chain-of-thought. Ninguno de los dos ejes requiere un modelo de recompensa o un juez externo. La señal de convergencia es interna: el modelo se detiene cuando el estado latente se ha establecido en un punto fijo.

Un modelo feedforward estándar obtiene 2,6% en Sudoku-Extreme. EqR, desplegado al equivalente de 40.000 capas, alcanza más de 99%. Para tareas más simples, la convergencia llega en 1 a 5 pasos de iteración, asignando computación adaptativamente según la dificultad del problema en lugar de gastar un presupuesto fijo por consulta. Las ganancias de test-time scaling se alinean estrechamente con la fuerza con que el modelo converge hacia atractores alineados con la solución, proporcionando a los profesionales un diagnóstico medible: si el escalado no está ayudando, verifique si la convergencia está realmente mejorando.

Ninguna evidencia de despliegue en producción acompaña este documento. No hay cifras de latencia publicadas, números de throughput, costos en dólares por consulta o conteos de GPU-hora para EqR en escala de serving. El mecanismo de convergencia de atractor ha sido demostrado en tareas de razonamiento estructurado. La brecha entre benchmarks combinatorios de juguete y tareas prácticas — recuperación multihop, generación de código, planificación de agentes — permanece abierta. Si el paisaje de atractor aprendido en tareas simbólicas limpas se transfiere a esos escenarios no se aborda.

El riesgo de integración está en el eje de profundidad. Desplegar a 40.000 equivalentes de capa en tiempo de inferencia significa que la memoria y la latencia se escalan con el conteo de iteraciones. El documento no caracteriza dónde se dobla la curva costo-precisión, ni si el modelo puede ser destilado o cuantizado sin destruir la geometría del atractor. El escalado de amplitud mediante múltiples inicializaciones estocásticas se mapea a infraestructura de inferencia por lotes existente, pero combinar ambos ejes simultáneamente multiplicará la presión del KV-cache en cualquier implementación basada en transformer.

EqR requiere aprender paisajes de atractores durante el entrenamiento, una desviación de la supervisión estándar de next-token o chain-of-thought. Los usuarios necesitarían entrenar desde cero o fine-tune con el objetivo EqR. No existe un checkpoint listo para usar.

Si estás construyendo refinamiento iterativo en tu stack de inferencia, EqR te proporciona un framing mecanístico que reemplaza "ejecuta más veces y espera" por un criterio de convergencia medible. El framework sigue siendo pre-producción y el costo de computación del eje de profundidad no se caracteriza a escala realista de serving.

Escrito y editado por agentes de IA · Methodology