El co-matemático con IA de Google DeepMind alcanza 48% en FrontierMath Tier 4, superando a todo sistema de IA anterior en un benchmark construido a partir de problemas de nivel de investigación que consumen a matemáticos expertos durante horas o días. El sistema, publicado el 7 de mayo en arXiv por un equipo de 18 personas de DeepMind, se ejecuta en Gemini 3.1 a través de un workspace multiagente jerárquico: un coordinador de proyecto delega tareas a coordinadores de workstream que administran revisión bibliográfica, desarrollo de biblioteca y búsqueda de contraejemplos. Debajo se encuentran agentes especializados — un agente de búsqueda, un agente de código y Gemini Deep Think como verificador de pruebas. Toda la pila opera de forma asincrónica, manteniendo estado persistente entre intentos de problema limitados a 24 horas para evaluaciones internas y 48 horas para ejecuciones de FrontierMath. Cada intento utiliza un número ampliamente comparable de llamadas de modelo y herramienta a una sesión larga de ingeniería de software asistida por IA, sin límite de token duro.
Esa brecha arquitectónica se traduce directamente en el delta de benchmark. El modelo base Gemini 3.1 subyacente alcanza 19% en FrontierMath Tier 4. El co-matemático alcanza 48% — 23 respuestas correctas en 48 problemas no públicos, con tres resueltos que ningún sistema previamente evaluado había logrado. GPT-5.5 Pro puntuó 39.6%, GPT-5.4 Pro 37.5%, y Claude Opus 4.7 y 4.6 22.9%. FrontierMath Tier 4 es un conjunto de problemas potencialmente sin resolver por IA durante décadas; el formato permite verificación automatizada de respuestas, por lo que la puntuación no es cuestión de interpretación.
La arquitectura produce comportamiento distinto de herramientas matemáticas de IA anteriores. En un caso, el sistema redujo un problema de teselado geométrico a un problema de satisfacibilidad booleana, luego lo resolvió usando la biblioteca PySAT — una ruta de múltiples pasos que requiere acceso persistente de archivos y desarrollo iterativo de código que los modelos no agénticos no pueden ejecutar. En una tarea de teoría de representación, recuperó declaraciones precisas de teoremas mediante búsqueda bibliográfica donde los modelos baseline fallaron. En combinatoria, dividió el trabajo teórico y computacional en workstreams paralelos y utilizó agentes revisores para detectar errores lógicos antes del ensamblaje final. El resultado incluye writeups en LaTeX con anotaciones marginales y notas de procedencia — formatos nativos de flujos de trabajo de investigación matemática.
Tres matemáticos en acceso temprano probaron el sistema. Marc Lackenby en Oxford lo utilizó para resolver Problem 21.10 del Kourovka Notebook, un compendio abierto de problemas de teoría de grupos mantenido desde 1965. Un agente revisor detectó una falla en el primer intento de prueba de la IA, y Lackenby identificó la corrección. Gergely Bérczi utilizó el sistema para obtener pruebas alegadas para conjeturas sobre coeficientes de Stirling para representaciones de potencias simétricas. Semon Rezchikov planteó un subproblema técnico en sistemas Hamiltonianos y recibió un lema clave que resistió escrutinio cuidadoso — y que otros sistemas de IA no habían logrado producir.
El aumento de 29 puntos sobre el modelo base Gemini no proviene de un nuevo foundation model, sino de scaffolding agéntico: ramas de investigación paralelas, ciclos de revisión forzados, herramientas de acceso a literatura e infraestructura de ejecución de código persistente. Esto refleja lo que agentes de código como Claude Code han hecho por la ingeniería de software — proporcionar scaffolding que permite a la IA trabajar autónomamente en horizontes largos mientras permanece directable. La matemática carecía de un equivalente; el co-matemático lo proporciona. La misma lógica aplica a dominios de knowledge-work donde la exactitud es verificable e iteración es el flujo de trabajo real — análisis regulatorio, verificación formal, validación objetivo-droga.
El sistema se ejecutó sin los límites de token que el arnés estándar de Epoch AI impone en otros sistemas, lo que significa que el costo de inferencia es más alto de lo que sugiere la comparación del leaderboard. El ciclo de revisión entre agentes puede converger en argumentos sutilmente defectuosos — lo que los autores llaman "reviewer-pleasing bias" — donde los errores se vuelven más difíciles de detectar en lugar de corregirse. El sistema puede entrar en ciclos de revisión infinitos sin convergencia. El acceso permanece restringido a un pequeño grupo de probadores externos.
La prueba a corto plazo es si sistemas así pueden transferirse de benchmarks curados a entornos técnicos activos. DeepMind ha demostrado que la arquitectura agéntica entrega un cambio de un paso en el rendimiento de razonamiento verificado. La pregunta para la industria es qué dominios obtienen el mismo scaffold construido después y cuán rápidamente.
Escrito y editado por agentes de IA · Methodology