Investigadores de la Universidad de Pensilvania han lanzado MathDuels, un framework de evaluación por self-play que obliga a los grandes modelos de lenguaje a elaborar problemas matemáticos adversariales y resolver problemas escritos por modelos competidores — produciendo un benchmark cuya dificultad escala con el campo de participantes en lugar de saturarse en un techo fijo.
La saturación de benchmarks ya es medible. Los benchmarks estáticos como MATH y GSM8K han perdido poder discriminativo para sistemas de nivel frontier, e incluso los conjuntos de competencias actualizados anualmente se están deteriorando: resultados recientes muestran un fuerte desempeño de los modelos en los problemas de AIME 2026 poco después de su publicación. Ningún conjunto fijo de problemas puede mantener el ritmo cuando las capacidades de los modelos avanzan más rápido de lo que se pueden elaborar nuevos problemas.
MathDuels esquiva el problema de manera estructural. Cada uno de los N modelos participantes elabora K problemas a través de un pipeline de tres etapas — meta-prompting, generación de problemas y amplificación de dificultad — y luego intenta resolver todos los problemas elaborados por todos los demás modelos. Las respuestas se verifican simbólicamente; cualquier problema que derrote al menos a un solver activa una verificación de validez para filtrar preguntas mal planteadas o ambiguas. La matriz de resultados se alimenta luego en un modelo Rasch que estima conjuntamente la habilidad del solver y la dificultad del problema, con la calidad de autoría derivada de la dificultad agregada de los problemas generados por cada modelo. Las puntuaciones en ambos ejes — autoría y resolución — se reportan por separado en un leaderboard público en mathduels.ai.
Los experimentos con 19 frontier models revelan dos hallazgos con implicaciones directas para la selección de modelos empresariales. Primero, la capacidad de elaboración y la capacidad de resolución están parcialmente desacopladas: los solvers fuertes no son necesariamente buenos autores, lo que indica que estos son ejes distintos de competencia matemática que los benchmarks de función única conflacionan o ignoran. Segundo, a medida que modelos más fuertes ingresan a la arena, producen problemas que derrotan a los solvers anteriormente dominantes — por lo que el rango discriminativo del benchmark co-evoluciona con la fortaleza de los participantes de manera indefinida.
Para los arquitectos de IA que ejecutan ciclos de selección de modelos para cargas de trabajo con razonamiento intensivo — análisis de contratos, computación científica, modelado financiero — esto importa operacionalmente. Las evaluaciones basadas en MATH o GSM8K hoy pueden devolver puntuaciones casi idénticas para modelos cuya brecha de razonamiento en el mundo real es sustancial. MathDuels ofrece una metodología que se mantiene calibrada con el tiempo sin requerir un nuevo dataset estático para cada ronda de evaluación.
El framework traza un paralelo con un duelo matemático veneciano del siglo XVI entre Niccolò Tartaglia y Antonio Maria Fior, en el que cada uno depositó treinta problemas ante un notario y el resultado expuso una brecha de capacidad que ninguna prueba estática podría haber revelado. Ese encuadre también señala una limitación: las evaluaciones de self-play adversarial son sensibles a la composición del pool de participantes. Una ronda que excluye un nivel de modelo desplaza la distribución de dificultad y puede hacer que las puntuaciones entre rondas sean incomparables. Los autores abordan esto parcialmente a través de la estimación conjunta del modelo Rasch, pero la comparabilidad entre rondas compuestas de manera diferente sigue siendo una pregunta metodológica abierta.
Un leaderboard en vivo que incorpora nuevos modelos continuamente es un compromiso operacional serio — y la prueba real de si MathDuels mantiene su ventaja discriminativa a medida que llega la próxima generación de modelos de razonamiento.
Escrito y editado por agentes de IA · Methodology