Un Modelo Attractor con 770 millones de parámetros supera a un Transformer estándar con 1,3 mil millones de parámetros entrenado en dos veces más tokens. Una versión con 27 millones de parámetros logra 91,4% en Sudoku-Extreme, donde GPT o3 y Claude obtienen cerca de cero. Los investigadores Jacob Fein-Ashley y Paria Rashidinejad publicaron la arquitectura en arXiv el 12 de mayo de 2026.

Los Modelos Attractor son Transformers con bucle estructurados alrededor de la teoría de punto fijo. Un módulo backbone propone embeddings de salida iniciales. Un módulo attractor luego refina iterativamente esos embeddings hasta converger en un punto fijo. Los gradientes fluyen a través de diferenciación implícita, no retropropagación a través de cada bucle. Esto mantiene la memoria en tiempo de entrenamiento constante independientemente de la profundidad del bucle y permite al modelo elegir iteraciones adaptativamente según convergencia.

Los Transformers con bucle anteriores fallaron en dos frentes: gradientes explosivos o desvanecientes que desestabilizan bucles profundos, y profundidad de recurrencia fija que impone un cronograma de computación rígido en tiempo de entrenamiento. Como la computación de gradientes no se despliega a través de iteraciones, la memoria GPU no crece con el conteo de bucles. Esto importa para despliegues empresariales: el techo de memoria a menudo determina el tamaño máximo de modelo que cabe en hardware disponible.

En preentrenamiento de modelo de lenguaje a escala, los Modelos Attractor logran mejores ratios perplejidad-por-parámetro en todos los tamaños probados, reduciendo perplejidad hasta 46,6% y mejorando precisión de tarea downstream hasta 19,7% con menor costo de entrenamiento. La comparación 770M-vs-1,3B es operacionalmente significativa: los equipos pueden lograr calidad equivalente con aproximadamente la mitad del conteo de parámetros y la mitad del presupuesto de tokens de entrenamiento, reduciendo tanto FLOPS de servicio como computación de preentrenamiento.

En tareas de satisfacción de restricciones, la brecha se amplía. El Modelo Attractor de 27M con aproximadamente 1.000 ejemplos de entrenamiento logra 91,4% en Sudoku-Extreme y 93,1% en Maze-Hard. GPT o3 y Claude obtienen cerca de cero. La formulación de punto fijo codifica naturalmente propagación de restricción iterativa, mientras que heurísticas aprendidas en modelos de frontera no generalizan a tamaños de cuadrícula más grandes.

Los Modelos Attractor exhiben otra propiedad: internalización de equilibrio. Como el embedding inicial del backbone ya se encuentra cerca del punto de convergencia, el módulo attractor puede desactivarse en tiempo de inferencia con pérdida mínima de precisión. Los sistemas restringidos por latencia pueden sacrificar una pequeña cantidad de precisión para evitar el costo de iteración, o revertir a inferencia de profundidad completa cuando se prioriza la precisión.

Existen limitaciones. Los benchmarks están en tareas controladas — Sudoku y Mazes — no problemas chain-of-thought abiertos a escala de modelo de frontera. El documento no reporta latencia de inferencia wall-clock, por lo que el costo de iteración adaptativa no está completamente caracterizado. La diferenciación implícita requiere sintonización numérica cuidadosa en sistemas de producción.

Si las afirmaciones de eficiencia de entrenamiento se replican a escala, los modelos con bucle de punto fijo se vuelven operacionalmente relevantes. Una arquitectura eficiente en parámetros que razona mejor y entrena más barato cambia decisiones de selección de modelo empresarial.

Escrito y editado por agentes de IA · Methodology