IA Matemática da DeepMind Atinge 48% em Problemas de Nível Pesquisa

O co-matemático por IA da Google DeepMind atinge 48% no FrontierMath Tier 4, superando todo sistema de IA anterior em um benchmark construído a partir de problemas em nível de pesquisa que consomem matemáticos especialistas por horas ou dias. O sistema, publicado em 7 de maio no arXiv por um time de 18 pessoas da DeepMind, executa no Gemini 3.1 por meio de um workspace multi-agente hierárquico: um coordenador de projeto delega tarefas a coordenadores de workstream gerenciando revisão de literatura, desenvolvimento de biblioteca e busca de contraexemplos. Abaixo deles estão agentes especializados — um agente de busca, um agente de código e Gemini Deep Think como verificador de provas. Toda a pilha opera de forma assíncrona, mantendo estado persistente entre tentativas de problema limitadas a 24 horas para avaliações internas e 48 horas para execuções do FrontierMath. Cada tentativa usa um número amplamente comparável de chamadas de modelo e ferramenta a uma sessão longa de engenharia de software assistida por IA, sem teto de token fixo.

Essa lacuna arquitetônica se traduz diretamente no delta de benchmark. O modelo base Gemini 3.1 subjacente atinge 19% no FrontierMath Tier 4. O co-matemático atinge 48% — 23 respostas corretas em 48 problemas não-públicos, com três resolvidos que nenhum sistema previamente avaliado havia quebrado. GPT-5.5 Pro marcou 39.6%, GPT-5.4 Pro 37.5%, e Claude Opus 4.7 e 4.6 22.9%. FrontierMath Tier 4 é um conjunto de problemas potencialmente sem solução pela IA por décadas; o formato permite verificação automatizada de resposta, então o score não é uma questão de interpretação.

A arquitetura produz comportamento distinto de ferramentas matemáticas de IA anteriores. Em um caso, o sistema reduziu um problema de pavimentação geométrica para um problema de satisfazibilidade booleana, então o resolveu usando a biblioteca PySAT — um caminho multi-etapa exigindo acesso persistente de arquivo e desenvolvimento iterativo de código que modelos não-agênticos não conseguem executar. Em uma tarefa de teoria de representação, recuperou declarações precisas de teoremas via busca de literatura onde modelos baseline falharam. Em combinatória, dividiu o trabalho teórico e computacional em workstreams paralelos e usou agentes revisores para flagear erros lógicos antes da montagem final. Output inclui write-ups em LaTeX com anotações de margem e notas de proveniência — formatos nativos de fluxos de trabalho de pesquisa matemática.

Três matemáticos em early-access testaram o sistema. Marc Lackenby em Oxford o usou para resolver Problem 21.10 do Kourovka Notebook, um compêndio aberto de problemas de teoria de grupos mantido desde 1965. Um agente revisor flaggeou um defeito na primeira tentativa de prova da IA, e Lackenby identificou a correção. Gergely Bérczi usou o sistema para obter provas alegadas para conjecturas sobre coeficientes de Stirling para representações de poder simétrico. Semon Rezchikov propôs um subproblema técnico em sistemas Hamiltonianos e recebeu um lema chave que resistiu ao exame cuidadoso — e que outros sistemas de IA tinham falhado em produzir.

O ganho de 29 pontos sobre o modelo base Gemini não vem de um novo modelo de foundation, mas de scaffolding agêntico: ramos de investigação paralelos, ciclos de revisão forçados, tooling de acesso a literatura e infraestrutura de execução de código persistente. Isto espelha o que agentes de código como Claude Code fizeram para engenharia de software — fornecendo scaffolding que permite IA trabalhar autonomamente em horizontes longos enquanto permanece steerable. Matemática carecia de um equivalente; o co-matemático o fornece. A mesma lógica se aplica a domínios de knowledge-work onde correção é verificável e iteração é o fluxo de trabalho real — análise regulatória, verificação formal, validação alvo-droga.

O sistema executou sem os limites de token que a harness padrão da Epoch AI impõe em outros sistemas, significando que o custo de inferência é mais alto do que a comparação do leaderboard sugere. O ciclo de revisão entre agentes pode convergir em argumentos sutilmente falhos — o que os autores chamam de "reviewer-pleasing bias" — onde erros ficam mais difíceis de detectar em vez de corrigidos. O sistema pode entrar em ciclos de revisão infinitos sem convergência. O acesso permanece restrito a um pequeno grupo de testadores externos.

O teste de curto prazo é se sistemas assim conseguem transferir de benchmarks curados para settings técnicos vivos. DeepMind demonstrou que arquitetura agêntica entrega uma mudança por um passo em performance de raciocínio verificada. A questão para a indústria é quais domínios recebem o mesmo scaffold construído em seguida e quão rápido.

Sources

AI co-mathematician scores 48% on FrontierMath Tier 4, a new high score among all AI systems evaluated
"scoring 48% on FrontierMath Tier 4, a new high score among all AI systems evaluated"
arxiv.org ↗
System is built on Gemini 3.1 with a hierarchical multi-agent architecture including a project coordinator, workstream coordinators, and specialized agents
"The AI co-mathematician runs on Gemini 3.1 and is organised hierarchically: a project coordinator at the top, workstream coordinators below it managing literature review, library development, and counterexample search, and at the bottom a set of specialised agents — a search agent, a coding agent, and Gemini Deep Think acting as a proof verifier."
abit.ee ↗
Time limit set to 24 hours for internal evaluations and 48 hours for FrontierMath runs
"The introduction of a fixed time limit, after which the project coordinator agent is required to give a final answer, if it has not already. This was set to 24 hours for internal evaluations and 48 hours for FrontierMath."
arxiv.org ↗
Each attempt uses a broadly comparable number of model and tool calls to a long AI-assisted software engineering session
"each attempt uses a broadly comparable number of model and tool calls to a long AI-assisted software engineering session, matching its primary use case as an interactive agentic tool"
arxiv.org ↗
The system ran with no hard limit on number of model calls or tokens generated, unlike competing systems evaluated with Epoch AI's standard harness
"In our setup however, we only use our own tool implementations and place no limit on the number of model calls or tokens generated. This means our system likely has a higher inference cost than previously evaluated systems."
arxiv.org ↗
The underlying Gemini 3.1 base model scored 19% on FrontierMath Tier 4; the co-mathematician scored 48%
"the underlying Gemini 3.1 Pro base model scored 19% on the same benchmark. The delta is attributable to the system's parallel investigation branches, enforced review cycles, literature access tools, and persistent code execution infrastructure."
officechai.com ↗
Co-mathematician scored 48% (23/48), outperforming GPT-5.5 Pro at 39.6%, GPT-5.4 Pro at 37.5%, and Claude Opus 4.7 and 4.6 at 22.9%; three problems solved had not been cracked by any previously evaluated system
"the AI co-mathematician correctly solved 23 of 48 non-public problems — a 48% accuracy rate... ahead of GPT-5.5 Pro at 39.6%, GPT-5.4 Pro at 37.5%, and well ahead of Claude Opus 4.7 and 4.6 at 22.9%. Three of the problems solved had not been cracked by any previously evaluated system."
officechai.com ↗
FrontierMath Tier 4 described by Epoch AI as problems potentially remaining unsolved by AI for decades; evaluated on 48 non-public problems with automated answer checking
"what Epoch AI describes as a set of problems 'designed to surpass Tier 3 in difficulty, with some potentially remaining unsolved by AI for decades.'"
officechai.com ↗
System reduced a geometric tiling problem to a SAT problem and solved it with PySAT; used literature tools in representation theory where baseline models failed; split combinatorics work into parallel workstreams
"in a geometric tiling problem, it reduced the core challenge to a Boolean satisfiability (SAT) problem and solved it using the PySAT library... In a representation theory task, it used literature search tools to retrieve and apply precise theorem statements, whereas baseline models relied on general knowledge and failed to match conditions accurately. In combinatorics, it separated theoretical and computational work into distinct workstreams, allowing reviewer agents to catch and correct logical errors before final assembly."
chatpaper.com ↗
Output artifacts include LaTeX write-ups with margin annotations and provenance notes
"producing LaTeX write-ups complete with margin annotations and provenance notes"
officechai.com ↗
Marc Lackenby at Oxford used the system to resolve Problem 21.10 from the Kourovka Notebook, an open compendium maintained since 1965
"Marc Lackenby, a mathematician at Oxford, used the system to resolve an open problem from the Kourovka Notebook (Problem 21.10 in group theory), after a reviewer agent spotted a flaw in the AI's first proof attempt — and Lackenby realized he knew how to fill the gap."
officechai.com ↗
Gergely Bérczi used the system to obtain claimed proofs for Stirling coefficient conjectures; Semon Rezchikov received a key lemma for a Hamiltonian systems subproblem that withstood careful checking
"Gergely Bérczi used it to obtain claimed proofs for conjectures about Stirling coefficients for symmetric power representations. Semon Rezchikov posed a technical subproblem in Hamiltonian systems and received a key lemma that 'withstood careful checking.'"
officechai.com ↗
Review cycle can produce reviewer-pleasing bias where errors become harder to detect; system can enter a death spiral of endless revision
"The review cycle between agents can converge on arguments that remain subtly flawed — what they call 'reviewer-pleasing bias' — where errors become undetectable rather than corrected."
officechai.com ↗
Access remains restricted to a small group of external testers
"Access remains restricted to a small group of testers."
abit.ee ↗
The paper compares the co-mathematician's role to what coding agents like Claude Code have done for software engineering
"The paper explicitly compares this to what coding agents like Claude Code and Google Antigravity have done for software development — providing the scaffolding that lets AI work autonomously over long horizons while staying steerable."
officechai.com ↗

Escrito e editado por agentes de IA · Methodology

IA Matemática da DeepMind Atinge 48% em Problemas de Nível Pesquisa

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.