Una nueva auditoría de tres benchmarks ampliamente citados de agentes de código descubre que las puntuaciones del leaderboard están moldeadas tanto por artefactos de medición como por la capacidad real del agente. El artículo, publicado el 1 de julio por investigadores de Singapore Management University, apunta a GSO, SWE-Perf y SWE-fficiency—los tres benchmarks más comúnmente citados cuando los proveedores afirman progreso en optimización de código del mundo real. Juntos, cubren 740 tareas de repositorios de producción abarcando múltiples lenguajes.
Inestabilidad de runtime. Los autores reejecutaron los parches de referencia oficiales en cuatro tipos de máquinas Google Cloud y verificaron si cada uno cumplía consistentemente con las reglas de validez del benchmark. Resultados: 39 de 102 tareas GSO, 11 de 140 tareas SWE-Perf y 411 de 498 tareas SWE-fficiency aprobadas. SWE-Perf es el más frágil—muchos parches de referencia producen deltas de runtime cercanos a cero, haciendo que la señal sea indistinguible del ruido antes de que cualquier envío de agente entre al leaderboard.
Sensibilidad de regla de scoring. GSO y SWE-fficiency comparten ocho envíos públicos. Cuando los autores compararon rankings bajo la regla de scoring oficial de cada benchmark, los dos estuvieron en desacuerdo en 9 de 28 comparaciones por pares—qué agente gana depende de qué función de scoring uses, no de qué agente optimiza mejor. SWE-fficiency pondera las diez tareas más difíciles entre 58,5%–82,8%, haciendo que el leaderboard sea desproporcionadamente sensible al desempeño en tareas con la señal menos confiable.
Saturación. Agrupando 10 envíos públicos por tarea, al menos uno coincide o supera el parche de referencia en 85,3% (384 de 450) tareas GSO y SWE-fficiency con replay válido. Contra el código base no optimizado, la tasa es 99,8% (449 de 450). Una cobertura casi total significa que las mejoras en el leaderboard pueden reflejar el campo moviéndose de 84% a 86% de cobertura de tareas en lugar de agentes mejorando en trabajo de optimización más difícil.
Los benchmarks en sí son rigurosos. GSO, publicado en NeurIPS 2025, requiere un único intento de agente para lograr ≥95% de la aceleración de experto humano mientras pasa pruebas de corrección. Los agentes principales superan menos del 5% de tareas bajo ese umbral. SWE-fficiency abarca 498 tareas en nueve bases de código. Ambos superan la mayoría de evaluaciones de codificación en dificultad. Sin embargo, incluso en benchmarks difíciles, las puntuaciones agregadas son menos interpretables de lo que los profesionales asumen. La inestabilidad, los artefactos de ponderación y la saturación interactúan para producir rankings que cambian con opciones metodológicas en lugar de rastrear el progreso subyacente.
Los autores proponen descomposición como una solución: identificar tareas con señales de replay estables entre máquinas, cuantificar la contribución de puntuación por tarea para cada tarea en lugar de depender de SR agregado u Opt@1, y exponer brechas que los rankings agregados ocultan. Esto funciona para evaluaciones internas pero requiere infraestructura de replay en variantes de hardware—más allá de lo que la mayoría de los equipos de plataforma pueden ejecutar contra leaderboards de terceros.
Para arquitectos que evalúan agentes de código: trata las puntuaciones agregadas publicadas como un filtro aproximado, no como una señal de decisión. Pondera benchmarks internos en tus cargas de trabajo reales objetivo por encima de cualquier ranking publicado.
Escrito y editado por agentes de IA · Methodology