Probado en 19 Frontier Models, MathDuels Desacopla la Habilidad de Autoría de la de Resolución

Investigadores de la Universidad de Pensilvania han lanzado MathDuels, un framework de evaluación por self-play que obliga a los grandes modelos de lenguaje a elaborar problemas matemáticos adversariales y resolver problemas escritos por modelos competidores — produciendo un benchmark cuya dificultad escala con el campo de participantes en lugar de saturarse en un techo fijo.

La saturación de benchmarks ya es medible. Los benchmarks estáticos como MATH y GSM8K han perdido poder discriminativo para sistemas de nivel frontier, e incluso los conjuntos de competencias actualizados anualmente se están deteriorando: resultados recientes muestran un fuerte desempeño de los modelos en los problemas de AIME 2026 poco después de su publicación. Ningún conjunto fijo de problemas puede mantener el ritmo cuando las capacidades de los modelos avanzan más rápido de lo que se pueden elaborar nuevos problemas.

MathDuels esquiva el problema de manera estructural. Cada uno de los N modelos participantes elabora K problemas a través de un pipeline de tres etapas — meta-prompting, generación de problemas y amplificación de dificultad — y luego intenta resolver todos los problemas elaborados por todos los demás modelos. Las respuestas se verifican simbólicamente; cualquier problema que derrote al menos a un solver activa una verificación de validez para filtrar preguntas mal planteadas o ambiguas. La matriz de resultados se alimenta luego en un modelo Rasch que estima conjuntamente la habilidad del solver y la dificultad del problema, con la calidad de autoría derivada de la dificultad agregada de los problemas generados por cada modelo. Las puntuaciones en ambos ejes — autoría y resolución — se reportan por separado en un leaderboard público en mathduels.ai.

Los experimentos con 19 frontier models revelan dos hallazgos con implicaciones directas para la selección de modelos empresariales. Primero, la capacidad de elaboración y la capacidad de resolución están parcialmente desacopladas: los solvers fuertes no son necesariamente buenos autores, lo que indica que estos son ejes distintos de competencia matemática que los benchmarks de función única conflacionan o ignoran. Segundo, a medida que modelos más fuertes ingresan a la arena, producen problemas que derrotan a los solvers anteriormente dominantes — por lo que el rango discriminativo del benchmark co-evoluciona con la fortaleza de los participantes de manera indefinida.

Para los arquitectos de IA que ejecutan ciclos de selección de modelos para cargas de trabajo con razonamiento intensivo — análisis de contratos, computación científica, modelado financiero — esto importa operacionalmente. Las evaluaciones basadas en MATH o GSM8K hoy pueden devolver puntuaciones casi idénticas para modelos cuya brecha de razonamiento en el mundo real es sustancial. MathDuels ofrece una metodología que se mantiene calibrada con el tiempo sin requerir un nuevo dataset estático para cada ronda de evaluación.

El framework traza un paralelo con un duelo matemático veneciano del siglo XVI entre Niccolò Tartaglia y Antonio Maria Fior, en el que cada uno depositó treinta problemas ante un notario y el resultado expuso una brecha de capacidad que ninguna prueba estática podría haber revelado. Ese encuadre también señala una limitación: las evaluaciones de self-play adversarial son sensibles a la composición del pool de participantes. Una ronda que excluye un nivel de modelo desplaza la distribución de dificultad y puede hacer que las puntuaciones entre rondas sean incomparables. Los autores abordan esto parcialmente a través de la estimación conjunta del modelo Rasch, pero la comparabilidad entre rondas compuestas de manera diferente sigue siendo una pregunta metodológica abierta.

Un leaderboard en vivo que incorpora nuevos modelos continuamente es un compromiso operacional serio — y la prueba real de si MathDuels mantiene su ventaja discriminativa a medida que llega la próxima generación de modelos de razonamiento.

Sources

MathDuels is a self-play benchmark where models author math problems and solve problems authored by competitors
"We introduce MathDuels, a self-play benchmark in which models occupy dual roles: each authors math problems under adversarial prompting and solves problems authored by every other participant."
arxiv.org ↗
Authors are from University of Pennsylvania (not Cornell as originally noted in the pitch brief)
"Zhiqiu Xu1 Shibo Jin1 Shreya Arya2 Mayur Naik1 1Department of Computer and Information Science, University of Pennsylvania 2Department of Mathematics, University of Pennsylvania"
arxiv.org ↗
Static benchmarks MATH and GSM8K have lost discriminative power for frontier models
"Benchmarks such as MATH (Hendrycks et al., 2021) and GSM8K (Cobbe et al., 2021) no longer provide the headroom they once did for separating frontier systems."
arxiv.org ↗
Even competition-based sets like AIME 2026 are becoming less durable for evaluation
"recent competition-based evaluation results report strong performance on newly released sets, including AIME 2026 (Balunović et al., 2025)."
arxiv.org ↗
MathDuels uses a three-stage pipeline: meta-prompting, problem generation, and difficulty amplification
"Problems are produced through a three-stage generation pipeline (meta-prompting, problem generation, and difficulty amplification), and validated by an independent verifier that excludes ill-posed questions."
arxiv.org ↗
A Rasch model jointly estimates solver abilities and problem difficulties; author quality is derived from the difficulties of authored problems
"A Rasch model (Rasch, 1993) jointly estimates solver abilities and problem difficulties; author quality is derived from the difficulties of each model's authored problems."
arxiv.org ↗
Experiments conducted across 19 frontier models
"Experiments across 19 frontier models reveal that authoring and solving capabilities are partially decoupled."
arxiv.org ↗
Authoring and solving capabilities are partially decoupled — strong solvers are not necessarily strong authors
"solving capability and authoring capability are partially decoupled: strong solvers are not necessarily strong authors, suggesting these are partially independent axes of mathematical competence that single-role benchmarks conflate or ignore entirely."
arxiv.org ↗
Benchmark difficulty co-evolves with participant strength as stronger models enter the arena
"As newer models enter the arena, they produce problems that defeat previously dominant solvers, so the benchmark's difficulty co-evolves with participant strength rather than saturating at a fixed ceiling."
arxiv.org ↗
Public leaderboard hosted at mathduels.ai
"Leaderboard: mathduels.ai"
arxiv.org ↗
The framework draws a parallel to Tartaglia vs. Fior, a 16th-century mathematical duel where each deposited 30 problems with a notary
"In 1535, the Venetian mathematician Niccolò Tartaglia received a challenge from Antonio Maria Fior: each would deposit thirty problems with a notary, and whoever solved more of the other's set within fifty days would win (Toscano, 2020)."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology