Testado em 19 Frontier Models, MathDuels Separa Habilidade de Autoria da de Resolução

Pesquisadores da Universidade da Pensilvânia lançaram o MathDuels, um framework de avaliação por self-play que força grandes modelos de linguagem a elaborar problemas matemáticos adversariais e resolver problemas escritos por modelos concorrentes — produzindo um benchmark cuja dificuldade escala com o campo de participantes em vez de saturar em um teto fixo.

A saturação de benchmarks já é mensurável. Benchmarks estáticos como MATH e GSM8K perderam poder discriminativo para sistemas de nível frontier, e até conjuntos de competições atualizados anualmente estão se deteriorando: resultados recentes mostram forte desempenho de modelos nos problemas do AIME 2026 logo após o lançamento. Nenhum conjunto fixo de problemas consegue acompanhar o ritmo quando as capacidades dos modelos avançam mais rápido do que novos problemas podem ser elaborados.

O MathDuels contorna o problema estruturalmente. Cada um dos N modelos participantes elabora K problemas por meio de um pipeline de três estágios — meta-prompting, geração de problemas e amplificação de dificuldade — e depois tenta resolver todos os problemas elaborados por todos os outros modelos. As respostas são verificadas simbolicamente; qualquer problema que derrote pelo menos um solver aciona uma verificação de validade para filtrar questões mal formuladas ou ambíguas. A matriz de resultados é então alimentada em um modelo Rasch que estima conjuntamente a habilidade do solver e a dificuldade do problema, com a qualidade de autoria derivada da dificuldade agregada dos problemas gerados por cada modelo. As pontuações em ambos os eixos — autoria e resolução — são reportadas separadamente em um leaderboard público em mathduels.ai.

Experimentos com 19 frontier models revelam dois achados com implicações diretas para a seleção de modelos em empresas. Primeiro, a capacidade de elaboração e a capacidade de resolução são parcialmente desacopladas: solvers fortes não são necessariamente bons autores, indicando que esses são eixos distintos de competência matemática que benchmarks de função única conflacionam ou ignoram. Segundo, à medida que modelos mais fortes entram na arena, eles produzem problemas que derrotam solvers anteriormente dominantes — portanto, o alcance discriminativo do benchmark co-evolui com a força dos participantes indefinidamente.

Para arquitetos de IA que conduzem ciclos de seleção de modelos para cargas de trabalho com raciocínio intensivo — análise de contratos, computação científica, modelagem financeira — isso tem relevância operacional. Avaliações baseadas em MATH ou GSM8K hoje podem retornar pontuações quase idênticas para modelos cujo gap de raciocínio no mundo real é substancial. O MathDuels oferece uma metodologia que permanece calibrada ao longo do tempo sem exigir um novo dataset estático para cada rodada de avaliação.

O framework traça um paralelo com um duelo matemático veneziano do século XVI entre Niccolò Tartaglia e Antonio Maria Fior, no qual cada um depositou trinta problemas com um tabelião e o resultado expôs uma lacuna de capacidade que nenhum teste estático poderia ter revelado. Esse enquadramento também aponta para uma limitação: avaliações de self-play adversarial são sensíveis à composição do pool de participantes. Uma rodada que exclui um nível de modelo desloca a distribuição de dificuldade e pode tornar as pontuações entre rodadas incomparáveis. Os autores abordam isso parcialmente por meio da estimativa conjunta do modelo Rasch, mas a comparabilidade entre rodadas compostas de forma diferente permanece uma questão metodológica em aberto.

Um leaderboard ao vivo que ingere novos modelos continuamente é um compromisso operacional sério — e o verdadeiro teste de se o MathDuels mantém sua vantagem discriminativa à medida que a próxima geração de modelos de raciocínio chega.

Sources

MathDuels is a self-play benchmark where models author math problems and solve problems authored by competitors
"We introduce MathDuels, a self-play benchmark in which models occupy dual roles: each authors math problems under adversarial prompting and solves problems authored by every other participant."
arxiv.org ↗
Authors are from University of Pennsylvania (not Cornell as originally noted in the pitch brief)
"Zhiqiu Xu1 Shibo Jin1 Shreya Arya2 Mayur Naik1 1Department of Computer and Information Science, University of Pennsylvania 2Department of Mathematics, University of Pennsylvania"
arxiv.org ↗
Static benchmarks MATH and GSM8K have lost discriminative power for frontier models
"Benchmarks such as MATH (Hendrycks et al., 2021) and GSM8K (Cobbe et al., 2021) no longer provide the headroom they once did for separating frontier systems."
arxiv.org ↗
Even competition-based sets like AIME 2026 are becoming less durable for evaluation
"recent competition-based evaluation results report strong performance on newly released sets, including AIME 2026 (Balunović et al., 2025)."
arxiv.org ↗
MathDuels uses a three-stage pipeline: meta-prompting, problem generation, and difficulty amplification
"Problems are produced through a three-stage generation pipeline (meta-prompting, problem generation, and difficulty amplification), and validated by an independent verifier that excludes ill-posed questions."
arxiv.org ↗
A Rasch model jointly estimates solver abilities and problem difficulties; author quality is derived from the difficulties of authored problems
"A Rasch model (Rasch, 1993) jointly estimates solver abilities and problem difficulties; author quality is derived from the difficulties of each model's authored problems."
arxiv.org ↗
Experiments conducted across 19 frontier models
"Experiments across 19 frontier models reveal that authoring and solving capabilities are partially decoupled."
arxiv.org ↗
Authoring and solving capabilities are partially decoupled — strong solvers are not necessarily strong authors
"solving capability and authoring capability are partially decoupled: strong solvers are not necessarily strong authors, suggesting these are partially independent axes of mathematical competence that single-role benchmarks conflate or ignore entirely."
arxiv.org ↗
Benchmark difficulty co-evolves with participant strength as stronger models enter the arena
"As newer models enter the arena, they produce problems that defeat previously dominant solvers, so the benchmark's difficulty co-evolves with participant strength rather than saturating at a fixed ceiling."
arxiv.org ↗
Public leaderboard hosted at mathduels.ai
"Leaderboard: mathduels.ai"
arxiv.org ↗
The framework draws a parallel to Tartaglia vs. Fior, a 16th-century mathematical duel where each deposited 30 problems with a notary
"In 1535, the Venetian mathematician Niccolò Tartaglia received a challenge from Antonio Maria Fior: each would deposit thirty problems with a notary, and whoever solved more of the other's set within fifty days would win (Toscano, 2020)."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology