Modelo Attractor de 27M Supera GPT o3 en Rompecabezas de Lógica

Una nueva arquitectura para transformers con bucle usa resolución de punto fijo para refinar representaciones intermedias, mejorando razonamiento y tareas de lenguaje mientras mantiene estabilidad en el entrenamiento. Esto ofrece una alternativa al unrolling — permitiendo que modelos más pequeños y económicos realicen razonamientos más profundos.

Un Modelo Attractor con 770 millones de parámetros supera a un Transformer estándar con 1,3 mil millones de parámetros entrenado en dos veces más tokens. Una versión con 27 millones de parámetros logra 91,4% en Sudoku-Extreme, donde GPT o3 y Claude obtienen cerca de cero. Los investigadores Jacob Fein-Ashley y Paria Rashidinejad publicaron la arquitectura en arXiv el 12 de mayo de 2026.

Los Modelos Attractor son Transformers con bucle estructurados alrededor de la teoría de punto fijo. Un módulo backbone propone embeddings de salida iniciales. Un módulo attractor luego refina iterativamente esos embeddings hasta converger en un punto fijo. Los gradientes fluyen a través de diferenciación implícita, no retropropagación a través de cada bucle. Esto mantiene la memoria en tiempo de entrenamiento constante independientemente de la profundidad del bucle y permite al modelo elegir iteraciones adaptativamente según convergencia.

Los Transformers con bucle anteriores fallaron en dos frentes: gradientes explosivos o desvanecientes que desestabilizan bucles profundos, y profundidad de recurrencia fija que impone un cronograma de computación rígido en tiempo de entrenamiento. Como la computación de gradientes no se despliega a través de iteraciones, la memoria GPU no crece con el conteo de bucles. Esto importa para despliegues empresariales: el techo de memoria a menudo determina el tamaño máximo de modelo que cabe en hardware disponible.

En preentrenamiento de modelo de lenguaje a escala, los Modelos Attractor logran mejores ratios perplejidad-por-parámetro en todos los tamaños probados, reduciendo perplejidad hasta 46,6% y mejorando precisión de tarea downstream hasta 19,7% con menor costo de entrenamiento. La comparación 770M-vs-1,3B es operacionalmente significativa: los equipos pueden lograr calidad equivalente con aproximadamente la mitad del conteo de parámetros y la mitad del presupuesto de tokens de entrenamiento, reduciendo tanto FLOPS de servicio como computación de preentrenamiento.

En tareas de satisfacción de restricciones, la brecha se amplía. El Modelo Attractor de 27M con aproximadamente 1.000 ejemplos de entrenamiento logra 91,4% en Sudoku-Extreme y 93,1% en Maze-Hard. GPT o3 y Claude obtienen cerca de cero. La formulación de punto fijo codifica naturalmente propagación de restricción iterativa, mientras que heurísticas aprendidas en modelos de frontera no generalizan a tamaños de cuadrícula más grandes.

Los Modelos Attractor exhiben otra propiedad: internalización de equilibrio. Como el embedding inicial del backbone ya se encuentra cerca del punto de convergencia, el módulo attractor puede desactivarse en tiempo de inferencia con pérdida mínima de precisión. Los sistemas restringidos por latencia pueden sacrificar una pequeña cantidad de precisión para evitar el costo de iteración, o revertir a inferencia de profundidad completa cuando se prioriza la precisión.

Existen limitaciones. Los benchmarks están en tareas controladas — Sudoku y Mazes — no problemas chain-of-thought abiertos a escala de modelo de frontera. El documento no reporta latencia de inferencia wall-clock, por lo que el costo de iteración adaptativa no está completamente caracterizado. La diferenciación implícita requiere sintonización numérica cuidadosa en sistemas de producción.

Si las afirmaciones de eficiencia de entrenamiento se replican a escala, los modelos con bucle de punto fijo se vuelven operacionalmente relevantes. Una arquitectura eficiente en parámetros que razona mejor y entrena más barato cambia decisiones de selección de modelo empresarial.

Sources

770M Attractor Model outperforms a 1.3B Transformer trained on twice as many tokens
"a 770M Attractor Model outperforms a 1.3B Transformer trained on twice as many tokens"
arxiv.org ↗
27M parameter model achieves 91.4% on Sudoku-Extreme and 93.1% on Maze-Hard
"our model with only 27M parameters and approximately 1000 examples achieves 91.4% accuracy on Sudoku-Extreme and 93.1% on Maze-Hard"
arxiv.org ↗
GPT o3 and Claude fail completely on Sudoku-Extreme and Maze-Hard at larger sizes
"scaling favorably where frontier models like Claude and GPT o3, fail completely, and specialized recursive reasoners collapse at larger sizes"
arxiv.org ↗
Attractor Models reduce perplexity by up to 46.6% and improve downstream accuracy by up to 19.7%
"improving perplexity by up to 46.6% and downstream accuracy by up to 19.7% while reducing training cost"
arxiv.org ↗
Training memory remains constant in effective depth via implicit differentiation
"training memory remains constant in effective depth, and iterations are chosen adaptively by convergence"
arxiv.org ↗
Equilibrium internalization allows the attractor solver to be removed at inference time with little degradation
"fixed-point training places the model's initial output embedding near equilibrium, allowing the solver to be removed at inference time with little degradation"
arxiv.org ↗
Authors are Jacob Fein-Ashley and Paria Rashidinejad; published May 12 2026
"Solve the Loop: Attractor Models for Language and Reasoning"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Modelo Attractor de 27M Supera GPT o3 en Rompecabezas de Lógica

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.