Tres grandes benchmarks inflan las puntuaciones de agentes de código, descubre auditoría

Una nueva auditoría de tres benchmarks ampliamente citados de agentes de código descubre que las puntuaciones del leaderboard están moldeadas tanto por artefactos de medición como por la capacidad real del agente. El artículo, publicado el 1 de julio por investigadores de Singapore Management University, apunta a GSO, SWE-Perf y SWE-fficiency—los tres benchmarks más comúnmente citados cuando los proveedores afirman progreso en optimización de código del mundo real. Juntos, cubren 740 tareas de repositorios de producción abarcando múltiples lenguajes.

Inestabilidad de runtime. Los autores reejecutaron los parches de referencia oficiales en cuatro tipos de máquinas Google Cloud y verificaron si cada uno cumplía consistentemente con las reglas de validez del benchmark. Resultados: 39 de 102 tareas GSO, 11 de 140 tareas SWE-Perf y 411 de 498 tareas SWE-fficiency aprobadas. SWE-Perf es el más frágil—muchos parches de referencia producen deltas de runtime cercanos a cero, haciendo que la señal sea indistinguible del ruido antes de que cualquier envío de agente entre al leaderboard.

Sensibilidad de regla de scoring. GSO y SWE-fficiency comparten ocho envíos públicos. Cuando los autores compararon rankings bajo la regla de scoring oficial de cada benchmark, los dos estuvieron en desacuerdo en 9 de 28 comparaciones por pares—qué agente gana depende de qué función de scoring uses, no de qué agente optimiza mejor. SWE-fficiency pondera las diez tareas más difíciles entre 58,5%–82,8%, haciendo que el leaderboard sea desproporcionadamente sensible al desempeño en tareas con la señal menos confiable.

Saturación. Agrupando 10 envíos públicos por tarea, al menos uno coincide o supera el parche de referencia en 85,3% (384 de 450) tareas GSO y SWE-fficiency con replay válido. Contra el código base no optimizado, la tasa es 99,8% (449 de 450). Una cobertura casi total significa que las mejoras en el leaderboard pueden reflejar el campo moviéndose de 84% a 86% de cobertura de tareas en lugar de agentes mejorando en trabajo de optimización más difícil.

Los benchmarks en sí son rigurosos. GSO, publicado en NeurIPS 2025, requiere un único intento de agente para lograr ≥95% de la aceleración de experto humano mientras pasa pruebas de corrección. Los agentes principales superan menos del 5% de tareas bajo ese umbral. SWE-fficiency abarca 498 tareas en nueve bases de código. Ambos superan la mayoría de evaluaciones de codificación en dificultad. Sin embargo, incluso en benchmarks difíciles, las puntuaciones agregadas son menos interpretables de lo que los profesionales asumen. La inestabilidad, los artefactos de ponderación y la saturación interactúan para producir rankings que cambian con opciones metodológicas en lugar de rastrear el progreso subyacente.

Los autores proponen descomposición como una solución: identificar tareas con señales de replay estables entre máquinas, cuantificar la contribución de puntuación por tarea para cada tarea en lugar de depender de SR agregado u Opt@1, y exponer brechas que los rankings agregados ocultan. Esto funciona para evaluaciones internas pero requiere infraestructura de replay en variantes de hardware—más allá de lo que la mayoría de los equipos de plataforma pueden ejecutar contra leaderboards de terceros.

Para arquitectos que evalúan agentes de código: trata las puntuaciones agregadas publicadas como un filtro aproximado, no como una señal de decisión. Pondera benchmarks internos en tus cargas de trabajo reales objetivo por encima de cualquier ranking publicado.

Sources

Only 39/102 GSO tasks, 11/140 SWE-Perf tasks, and 411/498 SWE-fficiency tasks had reference patches that passed benchmark validity rules in every cross-machine replay
"their reference patches satisfy the original benchmark validity rules in every cross-machine replay for only 39/102 GSO tasks, 11/140 SWE-Perf tasks, and 411/498 SWE-fficiency tasks; SWE-Perf is especially fragile because many reference patches produce close-to-zero runtime changes"
arxiv.org ↗
Rankings under GSO and SWE-fficiency's official scoring rules disagreed on 9 of 28 pairwise submission comparisons; SWE-fficiency's worst ten tasks carry score weights of 58.5%–82.8%
"the official rankings disagree on 9 of 28 pairwise submission comparisons, and SWE-fficiency's leaderboard scoring rule assigns the worst ten tasks overly high score weights of 58.5%-82.8%"
arxiv.org ↗
At least one submission matches or beats the reference patch on 85.3% (384/450) of replay-valid GSO and SWE-fficiency tasks; 99.8% (449/450) beat the unoptimized baseline
"at least one submission matches or beats the reference patch on 85.3% (384/450) of replay-valid GSO and SWE-fficiency tasks, and beats the unoptimized base code on 99.8% (449/450)"
arxiv.org ↗
The audit replayed official reference patches for 740 code optimization tasks across four common types of Google Cloud machines
"we replay the official reference patches for 740 code optimization tasks across four common types of Google Cloud machines"
arxiv.org ↗
GSO was published at NeurIPS 2025; poster presented December 3, 2025
"Poster Wed, Dec 3, 2025 • 4:30 PM – 7:30 PM PST · Manish Shetty ⋅ Naman Jain ⋅ Jinjian Liu ⋅ Vijay Kethanaboyina ⋅ Koushik Sen ⋅ Ion Stoica"
neurips.cc ↗
GSO covers 102 tasks across 10 codebases spanning diverse domains and programming languages; top agents achieve less than 5% success rate
"102 challenging optimization tasks across 10 codebases, spanning diverse domains and programming languages... leading SWE-Agents struggle significantly, achieving less than 5% success rate"
arxiv.org ↗
David Lo and Lingxiao Jiang, authors of the audit paper, are both Professors at Singapore Management University
"David Lo is a Professor of Information Systems at Singapore Management University... Lingxiao Jiang is an Associate Professor of Information Systems at Singapore Management University"
soarsmu.github.io ↗

Escrito y editado por agentes de IA · Methodology

Tres grandes benchmarks inflan las puntuaciones de agentes de código, descubre auditoría

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.