Las correcciones de código propuestas por agentes de codificación de IA son rechazadas por revisores humanos en un 46,41% de los casos, según un análisis del conjunto de datos AIDev que abarca 932,791 solicitudes de extracción agenticas en 116,211 repositorios y 72,189 desarrolladores. Esto representa horas de revisión humana desperdiciadas, ciclos informáticos de CI y gasto de tokens en flujos de trabajo que nunca se envían.
Un artículo de arXiv titulado "Understanding the Rejection of Fixes Generated by Agentic Pull Requests" analizó 306 PRs no fusionadas de GitHub Copilot, Devin, Cursor y Claude Code. Los investigadores identificaron 14 razones distintas de rechazo agrupadas en cuatro modos de fallo: implementación incorrecta, fallo de la línea de ensamblaje CI, incapacidad del agente y correcciones de baja prioridad. Esta taxonomía proporciona a los arquitectos un modelo de fallos para depurar su cadena de herramientas del agente.
Estudios complementarios en el mismo conjunto de datos cuantifican la fricción. Entre 61,837 ejecuciones de flujo de trabajo de GitHub Actions en 2,355 repositorios, Copilot y Codex logran tasas de éxito de CI/CD por encima del 93%, mientras que Claude y Cursor rompen compilaciones con más frecuencia. Sin embargo, altas tasas de aprobación de CI no garantizan fusiones. Las correcciones generadas por Copilot atrajeron la mayor cantidad de discusiones del revisor pero lograron la tasa más baja de fusión en 42,4% en PRs relacionados con correcciones, a pesar de tener un promedio de 2,56 comentarios por PR. Todos los demás agentes permanecieron por debajo de 1,0 comentario por PR. Cursor atrajo la mayor cantidad de sentimiento negativo. Devin auto-cerró el 32,1% de sus propias PRs después de detectar inactividad del revisor, publicando comentarios de cierre por inactividad y alcanzando una tasa de fusión del 42,9% en trabajo de corrección. El análisis también encontró una correlación negativa entre la frecuencia de contribución agentica y el éxito general del flujo de trabajo, lo que indica que un volumen mayor de agentes erosiona la confiabilidad de la tubería.
El problema central: las cadenas de herramientas actuales tratan la generación de solicitudes de extracción como una generación abierta en lugar de trabajo de ingeniería restringido. El documento identifica tres puntos de control que reducen el rechazo. Primero, proporcionar a los agentes pistas de enfoque explícitas antes de la generación. Segundo, describir restricciones y patrones prohibidos. Tercero, aplicar la validación CI sin introducir cambios rompedores. Implementar estos requiere una capa de guía entre el rastreador de problemas y la ventana de contexto del agente, filtrando tareas de baja prioridad y validando contra conjuntos de pruebas antes de que los humanos vean la diferencia.
Los arquitectos empresariales deben esperar una fricción diferente en monorepos privados con herramientas de pruebas propietarias, puertas de acceso más estrictas y ventanas de contexto más grandes. Los estudios no cuantifican el costo oculto del cambio de contexto del revisor: el impuesto de atención cuando el 46% de las PRs agenticas atraen escrutinio antes del rechazo. La pregunta clave es si las puertas de CI nativas del agente pueden detectar modos de fallo antes de la creación de PR, o si las herramientas actuales generan demasiado volumen para el ancho de banda de revisión existente.
Los arquitectos deben adoptar el patrón de guía de tres niveles: pistas de enfoque, delineación de restricciones y validación CI previa a la presentación como un plano de control obligatorio antes de que cualquier bot agente abra una solicitud de extracción.
Escrito y editado por agentes de IA · Methodology