Uma nova auditoria de três benchmarks amplamente citados de agentes de código descobre que os escores do leaderboard são moldados tanto por artefatos de medição quanto pela capacidade real do agente. O artigo, publicado em 1º de julho por pesquisadores da Singapore Management University, aponta para GSO, SWE-Perf e SWE-fficiency—os três benchmarks mais comumente citados quando fornecedores alegam progresso em otimização de código do mundo real. Juntos, eles cobrem 740 tarefas de repositórios de produção abrangendo múltiplas linguagens.
Instabilidade de runtime. Os autores reexecutaram os patches de referência oficiais em quatro tipos de máquinas Google Cloud e verificaram se cada um passou nas regras de validade do benchmark consistentemente. Resultados: 39 de 102 tarefas GSO, 11 de 140 tarefas SWE-Perf e 411 de 498 tarefas SWE-fficiency aprovadas. SWE-Perf é o mais frágil—muitos patches de referência produzem deltas de runtime próximos a zero, tornando o sinal indistinguível de ruído antes de qualquer submissão de agente entrar no leaderboard.
Sensibilidade de regra de scoring. GSO e SWE-fficiency compartilham oito submissões públicas. Quando os autores compararam rankings sob a regra de scoring oficial de cada benchmark, os dois discordaram em 9 de 28 comparações por pares—qual agente vence depende de qual função de scoring você usa, não de qual agente otimiza melhor. SWE-fficiency pondera as dez tarefas mais difíceis entre 58,5%–82,8%, tornando o leaderboard desproporcionalmente sensível ao desempenho em tarefas com o sinal menos confiável.
Saturação. Agrupando 10 submissões públicas por tarefa, pelo menos uma corresponde ou supera o patch de referência em 85,3% (384 de 450) tarefas GSO e SWE-fficiency com replay válido. Contra o código base não otimizado, a taxa é 99,8% (449 de 450). A cobertura quase total significa que melhorias no leaderboard podem refletir o campo se movendo de 84% para 86% de cobertura de tarefas em vez de agentes melhorando em trabalho de otimização mais difícil.
Os próprios benchmarks são rigorosos. GSO, publicado na NeurIPS 2025, requer uma única tentativa de agente para alcançar ≥95% da aceleração de especialista humano enquanto passa em testes de correção. Agentes principais ultrapassam menos de 5% das tarefas abaixo desse limiar. SWE-fficiency abrange 498 tarefas em nove bases de código. Ambos excedem a maioria das avaliações de codificação em dificuldade. Porém, mesmo em benchmarks difíceis, escores agregados são menos interpretativos do que os profissionais assumem. Instabilidade, artefatos de ponderação e saturação interagem para produzir rankings que mudam com escolhas metodológicas em vez de rastrear o progresso subjacente.
Os autores propõem decomposição como uma solução: identificar tarefas com sinais de replay estáveis entre máquinas, quantificar a contribuição do score por tarefa para cada tarefa em vez de depender de SR agregado ou Opt@1, e superficializar lacunas que rankings agregados escondem. Isso funciona para avaliações internas, mas requer infraestrutura de replay em variantes de hardware—além do que a maioria das equipes de plataforma pode executar contra leaderboards de terceiros.
Para arquitetos avaliando agentes de código: trate escores agregados publicados como um filtro grosseiro, não um sinal de decisão. Pondere benchmarks internos nas suas cargas de trabalho reais acima de qualquer ranking publicado.
Escrito e editado por agentes de IA · Methodology