Agentes de IA Dobram o Atrito de Merge em Nível de Repositório

Novas pesquisas redefinem a avaliação de agentes, passando do desempenho individual em benchmarks para atrito de integração em nível de ecossistema. O trabalho introduz métricas para medir o custo cumulativo de merges de código gerados por agentes, expondo por que agentes que passam em seus próprios testes ainda desestabilizam repositórios compartilhados.

Um artigo publicado na semana passada no arXiv desloca o local onde vive o risco dos agentes de codificação por IA: não no agente em si, mas no repositório que absorve seu resultado. Em 930.000 pull requests de autoria de agentes, o pesquisador Daniel Russo mediu o atrito de integração—o custo quando uma contribuição chega enquanto outros colaboradores mudam os mesmos arquivos. Metade da variação nesse atrito permanece no repositório após controlar para tamanho da contribuição, identidade do agente e conta. O ecossistema carrega o risco.

O instrumento de medição é a correlação intraclasse (ICC), emprestada das estatísticas de confiabilidade. A ICC quantifica qual fração do atrito de integração é explicada apenas pela associação ao repositório. Contribuições de autoria humana têm uma ICC de 0,16. Contribuições de autoria de agentes chegam a 0,30. Os agentes concentram o atrito em nível de repositório em aproximadamente o dobro da taxa humana, mantendo controles para tamanho da base de código, idade do projeto, formato da tarefa, maturidade do processo e caminho de merge.

Isso importa para o deployment. Pilhas de avaliação padrão testam um agente, uma tarefa, um ambiente isolado. Pontuações SWE-bench, taxas de aprovação GPQA, suites de testes independentes medem a correção por contribuição. Nenhuma captura o que acontece em um monorepo compartilhado ao longo de semanas de merges gerados por agentes. Um conjunto de dados complementar lançado em abril, AgenticFlict, executou simulação de merge determinística em 142.000 PRs de agentes a partir de mais de 59.000 repositórios e encontrou uma taxa de conflito de 27,67%—mais de 29.000 PRs com conflitos textuais verificados, gerando mais de 336.000 regiões de conflito discretas. Agentes que passam em seus próprios testes ainda geram conflitos em escala.

A mecânica é direta. Agentes trabalham com janelas de contexto isoladas que não conseguem observar mudanças em voo em outros branches. Tabelas de roteamento, arquivos de configuração de CI e registros compartilhados são pontos quentes de colisão porque muitos recursos os tocam independentemente do escopo da tarefa. Um estudo empírico MSR 2026 descobriu que falhas de CI/teste representam 17% das rejeições em nível de código em PRs de agentes ativamente revisados. O padrão dominante de rejeição é abandono do revisor—PRs de agentes fechados com pouco ou nenhum envolvimento humano.

A implicação de governança é a mais importante. Se o atrito de integração fosse em nível de agente—previsível a partir do modelo ou framework—você poderia corrigi-lo trocando agentes. Se for em nível de repositório, a solução é estrutural: quais repos são expostos ao tráfego de agentes, em que velocidade de merge, com que disciplina de fila. Repos com atrito de baseline alto amplificam contribuições de agentes. Repos com filas de merge disciplinadas e CI rápido amortecem.

Para engenheiros de plataforma, a lacuna prática é instrumentação. Dashboards por agente não expõem drift de ICC em nível de repositório. As equipes precisam de métricas de saúde com escopo de repo—atrito de integração rastreado ao longo do tempo por repositório, correlacionado com volume de merge de agentes—para detectar custo acumulativo antes de incidentes em produção.

O aprendizado é operacional: governe a fila de merge, não o modelo.

Sources

Across more than 930,000 agent-authored pull requests, roughly half the variation in integration friction stays with the repository after controlling for the contribution, its size, the specific agent, and the contributing account
"Across more than 930,000 agent-authored pull requests, we measure how much of the variation in friction stays with the repository after the contribution, its author, its size, and its agent are accounted for. About half does, and it survives full controls."
arxiv.org ↗
Agent-authored contributions show an intraclass correlation of 0.30 versus 0.16 for human-authored contributions, concentrating repository-level friction at roughly twice the rate
"agent-authored contributions concentrate this repository-level friction roughly twice as much as human ones (intraclass correlation 0.30 versus 0.16)"
arxiv.org ↗
The risk is a property of the ecosystem, not the agent — AI-native software is better governed at the ecosystem level than one agent at a time
"The risk is a property of the ecosystem, not the agent. AI-native software is therefore better measured and governed at the ecosystem level than one agent at a time."
arxiv.org ↗
AgenticFlict ran deterministic merge simulation on more than 142,000 agentic PRs from 59,000+ repositories and found a 27.67% conflict rate — over 29,000 PRs with verified merge conflicts and 336,000+ discrete conflict regions
"The dataset comprises 142K+ Agentic PRs collected from 59K+ repositories... Our pipeline identifies 29K+ PRs exhibiting merge conflicts, yielding a conflict rate of 27.67%, and extracts 336K+ fine-grained conflict regions across these instances."
arxiv.org ↗
CI/test failures account for 17% of code-level rejections in actively-reviewed agentic PRs; the dominant rejection pattern overall is reviewer abandonment
"The dominant pattern in this category is CI/test failure, observed in 99 PRs (17%), where automated builds or tests fail due to the submitted changes... The most frequent rejection pattern is reviewer abandonment, where agent-authored PRs receive little or no human engagement before being closed."
arxiv.org ↗
Agents work with isolated context windows that cannot observe in-flight changes on other branches; routing tables, CI configuration files, and shared registries are collision hotspots
"concurrent AI agents generate code quickly with isolated context windows that cannot see each other's in-flight changes... Routing tables, configuration files, and component registries act as collision hotspots because many features touch them."
augmentcode.com ↗

Escrito e editado por agentes de IA · Methodology

Agentes de IA Dobram o Atrito de Merge em Nível de Repositório

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.