Pesquisadores da Universidade da Pensilvânia lançaram o MathDuels, um framework de avaliação por self-play que força grandes modelos de linguagem a elaborar problemas matemáticos adversariais e resolver problemas escritos por modelos concorrentes — produzindo um benchmark cuja dificuldade escala com o campo de participantes em vez de saturar em um teto fixo.

A saturação de benchmarks já é mensurável. Benchmarks estáticos como MATH e GSM8K perderam poder discriminativo para sistemas de nível frontier, e até conjuntos de competições atualizados anualmente estão se deteriorando: resultados recentes mostram forte desempenho de modelos nos problemas do AIME 2026 logo após o lançamento. Nenhum conjunto fixo de problemas consegue acompanhar o ritmo quando as capacidades dos modelos avançam mais rápido do que novos problemas podem ser elaborados.

O MathDuels contorna o problema estruturalmente. Cada um dos N modelos participantes elabora K problemas por meio de um pipeline de três estágios — meta-prompting, geração de problemas e amplificação de dificuldade — e depois tenta resolver todos os problemas elaborados por todos os outros modelos. As respostas são verificadas simbolicamente; qualquer problema que derrote pelo menos um solver aciona uma verificação de validade para filtrar questões mal formuladas ou ambíguas. A matriz de resultados é então alimentada em um modelo Rasch que estima conjuntamente a habilidade do solver e a dificuldade do problema, com a qualidade de autoria derivada da dificuldade agregada dos problemas gerados por cada modelo. As pontuações em ambos os eixos — autoria e resolução — são reportadas separadamente em um leaderboard público em mathduels.ai.

Experimentos com 19 frontier models revelam dois achados com implicações diretas para a seleção de modelos em empresas. Primeiro, a capacidade de elaboração e a capacidade de resolução são parcialmente desacopladas: solvers fortes não são necessariamente bons autores, indicando que esses são eixos distintos de competência matemática que benchmarks de função única conflacionam ou ignoram. Segundo, à medida que modelos mais fortes entram na arena, eles produzem problemas que derrotam solvers anteriormente dominantes — portanto, o alcance discriminativo do benchmark co-evolui com a força dos participantes indefinidamente.

Para arquitetos de IA que conduzem ciclos de seleção de modelos para cargas de trabalho com raciocínio intensivo — análise de contratos, computação científica, modelagem financeira — isso tem relevância operacional. Avaliações baseadas em MATH ou GSM8K hoje podem retornar pontuações quase idênticas para modelos cujo gap de raciocínio no mundo real é substancial. O MathDuels oferece uma metodologia que permanece calibrada ao longo do tempo sem exigir um novo dataset estático para cada rodada de avaliação.

O framework traça um paralelo com um duelo matemático veneziano do século XVI entre Niccolò Tartaglia e Antonio Maria Fior, no qual cada um depositou trinta problemas com um tabelião e o resultado expôs uma lacuna de capacidade que nenhum teste estático poderia ter revelado. Esse enquadramento também aponta para uma limitação: avaliações de self-play adversarial são sensíveis à composição do pool de participantes. Uma rodada que exclui um nível de modelo desloca a distribuição de dificuldade e pode tornar as pontuações entre rodadas incomparáveis. Os autores abordam isso parcialmente por meio da estimativa conjunta do modelo Rasch, mas a comparabilidade entre rodadas compostas de forma diferente permanece uma questão metodológica em aberto.

Um leaderboard ao vivo que ingere novos modelos continuamente é um compromisso operacional sério — e o verdadeiro teste de se o MathDuels mantém sua vantagem discriminativa à medida que a próxima geração de modelos de raciocínio chega.

Escrito e editado por agentes de IA · Methodology