La mitad de las correcciones de código generadas por IA fallan en la revisión humana

Las correcciones de código propuestas por agentes de codificación de IA son rechazadas por revisores humanos en un 46,41% de los casos, según un análisis del conjunto de datos AIDev que abarca 932,791 solicitudes de extracción agenticas en 116,211 repositorios y 72,189 desarrolladores. Esto representa horas de revisión humana desperdiciadas, ciclos informáticos de CI y gasto de tokens en flujos de trabajo que nunca se envían.

Un artículo de arXiv titulado "Understanding the Rejection of Fixes Generated by Agentic Pull Requests" analizó 306 PRs no fusionadas de GitHub Copilot, Devin, Cursor y Claude Code. Los investigadores identificaron 14 razones distintas de rechazo agrupadas en cuatro modos de fallo: implementación incorrecta, fallo de la línea de ensamblaje CI, incapacidad del agente y correcciones de baja prioridad. Esta taxonomía proporciona a los arquitectos un modelo de fallos para depurar su cadena de herramientas del agente.

Estudios complementarios en el mismo conjunto de datos cuantifican la fricción. Entre 61,837 ejecuciones de flujo de trabajo de GitHub Actions en 2,355 repositorios, Copilot y Codex logran tasas de éxito de CI/CD por encima del 93%, mientras que Claude y Cursor rompen compilaciones con más frecuencia. Sin embargo, altas tasas de aprobación de CI no garantizan fusiones. Las correcciones generadas por Copilot atrajeron la mayor cantidad de discusiones del revisor pero lograron la tasa más baja de fusión en 42,4% en PRs relacionados con correcciones, a pesar de tener un promedio de 2,56 comentarios por PR. Todos los demás agentes permanecieron por debajo de 1,0 comentario por PR. Cursor atrajo la mayor cantidad de sentimiento negativo. Devin auto-cerró el 32,1% de sus propias PRs después de detectar inactividad del revisor, publicando comentarios de cierre por inactividad y alcanzando una tasa de fusión del 42,9% en trabajo de corrección. El análisis también encontró una correlación negativa entre la frecuencia de contribución agentica y el éxito general del flujo de trabajo, lo que indica que un volumen mayor de agentes erosiona la confiabilidad de la tubería.

El problema central: las cadenas de herramientas actuales tratan la generación de solicitudes de extracción como una generación abierta en lugar de trabajo de ingeniería restringido. El documento identifica tres puntos de control que reducen el rechazo. Primero, proporcionar a los agentes pistas de enfoque explícitas antes de la generación. Segundo, describir restricciones y patrones prohibidos. Tercero, aplicar la validación CI sin introducir cambios rompedores. Implementar estos requiere una capa de guía entre el rastreador de problemas y la ventana de contexto del agente, filtrando tareas de baja prioridad y validando contra conjuntos de pruebas antes de que los humanos vean la diferencia.

Los arquitectos empresariales deben esperar una fricción diferente en monorepos privados con herramientas de pruebas propietarias, puertas de acceso más estrictas y ventanas de contexto más grandes. Los estudios no cuantifican el costo oculto del cambio de contexto del revisor: el impuesto de atención cuando el 46% de las PRs agenticas atraen escrutinio antes del rechazo. La pregunta clave es si las puertas de CI nativas del agente pueden detectar modos de fallo antes de la creación de PR, o si las herramientas actuales generan demasiado volumen para el ancho de banda de revisión existente.

Los arquitectos deben adoptar el patrón de guía de tres niveles: pistas de enfoque, delineación de restricciones y validación CI previa a la presentación como un plano de control obligatorio antes de que cualquier bot agente abra una solicitud de extracción.

Sources

46.41% of fixes proposed by AI agents (Copilot, Devin, Cursor, Claude) are rejected; 306 non-merged PRs analyzed; 14 rejection reasons across 4 categories: incorrect implementation, CI failure, agent inability, low priority
"we find that 46.41% of the fixes proposed by the agents Copilot, Devin, Cursor, and Claude are rejected... Our qualitative findings identify 14 reasons divided into four high-level categories for rejecting AI-agent fixes."
arxiv.org ↗
AIDev dataset comprises 932,791 agentic pull requests across 116,211 repositories, involving 72,189 developers; curated subset of 33,596 PRs from 2,807 repos with 100+ stars
"AIDev aggregates 932,791 Agentic-PRs produced by five agents: OpenAI Codex, Devin, GitHub Copilot, Cursor, and Claude Code. These PRs span 116,211 repositories and involve 72,189 developers. In addition, AIDev includes a curated subset of 33,596 Agentic-PRs from 2,807 repositories with over 100 stars."
arxiv.org ↗
Copilot and Codex achieve CI/CD success rates above 93% and ~94% respectively in 61,837 GitHub Actions workflow runs across 2,355 repositories; negative correlation between agentic contribution frequency and workflow success rate
"reliability is primarily agent-dependent: while Copilot and Codex achieving the highest success rates ~93% and ~94% respectively... a negative correlation between AI agent contribution frequency and workflow success rate"
arxiv.org ↗
Cursor attracted the highest proportion of negative sentiment; Copilot received the most comments per PR; Devin and Codex received minimal engagement
"Claude Code elicited the longest comments and the highest proportion of positive sentiment, while GitHub Copilot received the most comments per PR with predominantly neutral sentiment. Devin and OpenAI Codex both received minimal engagement... Cursor stood apart as the agent receiving the highest proportion of negative sentiment."
arxiv.org ↗
Copilot exhibits the lowest acceptance rate across agents; Copilot averages 2.56 total comments per PR while all other agents remain below 1.0 comment per PR
"Copilot exhibits the lowest acceptance rate across agents... Copilot has an average of 2.56 total comments per PR. All other agents remain below one total comment per PR on average."
arxiv.org ↗
On fix-related PRs: Codex merge rate 81.6%, Devin 42.9%, Copilot 42.4%; more than half of Devin's fix-related PRs are closed without merging
"OpenAI Codex exhibits a notably high merge rate (81.6%), whereas GitHub Copilot and Devin show much lower merge rates (42.4% and 42.9%, respectively). More than half of Devin's fix-related PRs are closed without merging."
arxiv.org ↗
Devin auto-closes 32.1% of its own PRs after detecting reviewer inactivity, posting 'Closing due to inactivity' comments
"PRs generated by Devin have a markedly higher proportion of rejections due to 'Are inactive (author/community)' (32.1%). This behavior is consistent with the support in Devin for automatically closing inactive PRs. For example, one PR was closed after Devin commented 'Closing due to inactivity for more than 7 days.'"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

La mitad de las correcciones de código generadas por IA fallan en la revisión humana

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.