O co-matemático por IA da Google DeepMind atinge 48% no FrontierMath Tier 4, superando todo sistema de IA anterior em um benchmark construído a partir de problemas em nível de pesquisa que consomem matemáticos especialistas por horas ou dias. O sistema, publicado em 7 de maio no arXiv por um time de 18 pessoas da DeepMind, executa no Gemini 3.1 por meio de um workspace multi-agente hierárquico: um coordenador de projeto delega tarefas a coordenadores de workstream gerenciando revisão de literatura, desenvolvimento de biblioteca e busca de contraexemplos. Abaixo deles estão agentes especializados — um agente de busca, um agente de código e Gemini Deep Think como verificador de provas. Toda a pilha opera de forma assíncrona, mantendo estado persistente entre tentativas de problema limitadas a 24 horas para avaliações internas e 48 horas para execuções do FrontierMath. Cada tentativa usa um número amplamente comparável de chamadas de modelo e ferramenta a uma sessão longa de engenharia de software assistida por IA, sem teto de token fixo.

Essa lacuna arquitetônica se traduz diretamente no delta de benchmark. O modelo base Gemini 3.1 subjacente atinge 19% no FrontierMath Tier 4. O co-matemático atinge 48% — 23 respostas corretas em 48 problemas não-públicos, com três resolvidos que nenhum sistema previamente avaliado havia quebrado. GPT-5.5 Pro marcou 39.6%, GPT-5.4 Pro 37.5%, e Claude Opus 4.7 e 4.6 22.9%. FrontierMath Tier 4 é um conjunto de problemas potencialmente sem solução pela IA por décadas; o formato permite verificação automatizada de resposta, então o score não é uma questão de interpretação.

A arquitetura produz comportamento distinto de ferramentas matemáticas de IA anteriores. Em um caso, o sistema reduziu um problema de pavimentação geométrica para um problema de satisfazibilidade booleana, então o resolveu usando a biblioteca PySAT — um caminho multi-etapa exigindo acesso persistente de arquivo e desenvolvimento iterativo de código que modelos não-agênticos não conseguem executar. Em uma tarefa de teoria de representação, recuperou declarações precisas de teoremas via busca de literatura onde modelos baseline falharam. Em combinatória, dividiu o trabalho teórico e computacional em workstreams paralelos e usou agentes revisores para flagear erros lógicos antes da montagem final. Output inclui write-ups em LaTeX com anotações de margem e notas de proveniência — formatos nativos de fluxos de trabalho de pesquisa matemática.

Três matemáticos em early-access testaram o sistema. Marc Lackenby em Oxford o usou para resolver Problem 21.10 do Kourovka Notebook, um compêndio aberto de problemas de teoria de grupos mantido desde 1965. Um agente revisor flaggeou um defeito na primeira tentativa de prova da IA, e Lackenby identificou a correção. Gergely Bérczi usou o sistema para obter provas alegadas para conjecturas sobre coeficientes de Stirling para representações de poder simétrico. Semon Rezchikov propôs um subproblema técnico em sistemas Hamiltonianos e recebeu um lema chave que resistiu ao exame cuidadoso — e que outros sistemas de IA tinham falhado em produzir.

O ganho de 29 pontos sobre o modelo base Gemini não vem de um novo modelo de foundation, mas de scaffolding agêntico: ramos de investigação paralelos, ciclos de revisão forçados, tooling de acesso a literatura e infraestrutura de execução de código persistente. Isto espelha o que agentes de código como Claude Code fizeram para engenharia de software — fornecendo scaffolding que permite IA trabalhar autonomamente em horizontes longos enquanto permanece steerable. Matemática carecia de um equivalente; o co-matemático o fornece. A mesma lógica se aplica a domínios de knowledge-work onde correção é verificável e iteração é o fluxo de trabalho real — análise regulatória, verificação formal, validação alvo-droga.

O sistema executou sem os limites de token que a harness padrão da Epoch AI impõe em outros sistemas, significando que o custo de inferência é mais alto do que a comparação do leaderboard sugere. O ciclo de revisão entre agentes pode convergir em argumentos sutilmente falhos — o que os autores chamam de "reviewer-pleasing bias" — onde erros ficam mais difíceis de detectar em vez de corrigidos. O sistema pode entrar em ciclos de revisão infinitos sem convergência. O acesso permanece restrito a um pequeno grupo de testadores externos.

O teste de curto prazo é se sistemas assim conseguem transferir de benchmarks curados para settings técnicos vivos. DeepMind demonstrou que arquitetura agêntica entrega uma mudança por um passo em performance de raciocínio verificada. A questão para a indústria é quais domínios recebem o mesmo scaffold construído em seguida e quão rápido.

Escrito e editado por agentes de IA · Methodology