Um artigo publicado na semana passada no arXiv desloca o local onde vive o risco dos agentes de codificação por IA: não no agente em si, mas no repositório que absorve seu resultado. Em 930.000 pull requests de autoria de agentes, o pesquisador Daniel Russo mediu o atrito de integração—o custo quando uma contribuição chega enquanto outros colaboradores mudam os mesmos arquivos. Metade da variação nesse atrito permanece no repositório após controlar para tamanho da contribuição, identidade do agente e conta. O ecossistema carrega o risco.

O instrumento de medição é a correlação intraclasse (ICC), emprestada das estatísticas de confiabilidade. A ICC quantifica qual fração do atrito de integração é explicada apenas pela associação ao repositório. Contribuições de autoria humana têm uma ICC de 0,16. Contribuições de autoria de agentes chegam a 0,30. Os agentes concentram o atrito em nível de repositório em aproximadamente o dobro da taxa humana, mantendo controles para tamanho da base de código, idade do projeto, formato da tarefa, maturidade do processo e caminho de merge.

Isso importa para o deployment. Pilhas de avaliação padrão testam um agente, uma tarefa, um ambiente isolado. Pontuações SWE-bench, taxas de aprovação GPQA, suites de testes independentes medem a correção por contribuição. Nenhuma captura o que acontece em um monorepo compartilhado ao longo de semanas de merges gerados por agentes. Um conjunto de dados complementar lançado em abril, AgenticFlict, executou simulação de merge determinística em 142.000 PRs de agentes a partir de mais de 59.000 repositórios e encontrou uma taxa de conflito de 27,67%—mais de 29.000 PRs com conflitos textuais verificados, gerando mais de 336.000 regiões de conflito discretas. Agentes que passam em seus próprios testes ainda geram conflitos em escala.

A mecânica é direta. Agentes trabalham com janelas de contexto isoladas que não conseguem observar mudanças em voo em outros branches. Tabelas de roteamento, arquivos de configuração de CI e registros compartilhados são pontos quentes de colisão porque muitos recursos os tocam independentemente do escopo da tarefa. Um estudo empírico MSR 2026 descobriu que falhas de CI/teste representam 17% das rejeições em nível de código em PRs de agentes ativamente revisados. O padrão dominante de rejeição é abandono do revisor—PRs de agentes fechados com pouco ou nenhum envolvimento humano.

A implicação de governança é a mais importante. Se o atrito de integração fosse em nível de agente—previsível a partir do modelo ou framework—você poderia corrigi-lo trocando agentes. Se for em nível de repositório, a solução é estrutural: quais repos são expostos ao tráfego de agentes, em que velocidade de merge, com que disciplina de fila. Repos com atrito de baseline alto amplificam contribuições de agentes. Repos com filas de merge disciplinadas e CI rápido amortecem.

Para engenheiros de plataforma, a lacuna prática é instrumentação. Dashboards por agente não expõem drift de ICC em nível de repositório. As equipes precisam de métricas de saúde com escopo de repo—atrito de integração rastreado ao longo do tempo por repositório, correlacionado com volume de merge de agentes—para detectar custo acumulativo antes de incidentes em produção.

O aprendizado é operacional: governe a fila de merge, não o modelo.

Escrito e editado por agentes de IA · Methodology