Por que Agentes em Produção Falham Sem Infraestrutura de Harness

A maioria dos agentes de IA em produção falha não porque foundation models careçam de capacidade de código, mas porque a infraestrutura de runtime para verificar e atribuir saída do modelo não existe. Esta é a percepção central de AI Harness Engineering, um framework desenvolvido pelos pesquisadores Hailin Zhong e Shengxin Zhu.

O framework postula que o sistema modelo-harness-ambiente é a unidade de análise, não o modelo isolado. O harness é o substrato de runtime que controla observação de tarefa, seleção de contexto, chamadas de ferramentas, loops de feedback, rastreamento de estado e detecção de conclusão. Sem um harness bem especificado, um agente opera em malha aberta contra uma base de código viva — onde agentes visivelmente se quebram.

O framework nomeia onze responsabilidades de componentes: especificação de tarefa, seleção de contexto, acesso a ferramentas, memória de projeto, estado de tarefa, observabilidade, atribuição de falha, verificação, permissões, auditoria de entropia e gravação de intervenção. Os autores argumentam que a ausência destes componentes — não a capacidade do modelo — explica por que o desempenho em benchmarks falha ao transferir para repositórios em produção.

O framework define uma escada de capacidade com quatro níveis: H0 até H3. H0 é a linha de base com tarefa de entrada, patch de saída e sem suporte de runtime. Os níveis intermediários progressivamente expõem mais suporte de runtime ao agente. H3 é cobertura total com logs de reprodução, verificações de requisitos determinísticas e relatórios de verificação estruturados. A escada serve tanto como escala de medição quanto como roteiro de implantação: instrumente um pipeline existente, marque seu nível de harness e identifique quais componentes adicionar em seguida.

Avaliação é baseada em rastreamento. Cada execução de agente se torna um pacote de episódio, um artefato auditável contendo o patch e sua cadeia de evidência. Em H0, o pacote de episódio contém apenas o diff final. Em H3, inclui logs de reprodução, atribuições de falha por teste e relatórios de verificação legíveis por máquina. A estrutura de evidência varia sistematicamente com o nível de harness, servindo como proxy para confiabilidade e auditabilidade.

Este é um paper conceitual e de framework. A validação controlada demonstra diferenças estruturais entre níveis de harness, mas não relata scores de SWE-bench, custo de inferência ou escala de implantação. Equipes adotando o framework devem operacionalizar todos os onze componentes em sua própria stack e validar em suas próprias tarefas.

O paper descreve o framework e programa de pesquisa, mas não distribui código de referência. Mapear as onze responsabilidades em uma camada existente — LangGraph, AutoGen, OpenHands ou um loop de chamada de ferramenta customizado — é a tarefa do praticante. Auditoria de entropia e gravação de intervenção carecem de tooling estabelecida, requerendo construção customizada. A escada H0–H3 é diagnóstica, mas a transição H2-para-H3 requer um verificador de requisitos determinístico, que pressupõe que a tarefa é máquina-verificável — verdadeiro apenas para bases de código com testes unitários.

Pare de atribuir falhas de agente à qualidade do modelo antes de ter marcado seu pipeline na escada de harness. H0 é onde a maioria das setups de agente em produção vive, e os modos de falha em H0 são problemas de infraestrutura, não problemas de capacidade.

Sources

Autonomous software-engineering agents fail because of missing runtime infrastructure, not model capability limitations
"The dominant explanation locates this gap in model capability. We propose a different locus: software-engineering capability emerges from a model-harness-environment system"
arxiv.org ↗
The harness mediates how an agent observes a project, acts on it, receives feedback, and establishes that a change is complete
"a runtime substrate -- the harness -- mediates how a foundation-model agent observes a project, acts on it, receives feedback, and establishes that a change is complete"
arxiv.org ↗
The framework identifies eleven component responsibilities: task specification, context selection, tool access, project memory, task state, observability, failure attribution, verification, permissions, entropy auditing, and intervention recording
"identify eleven component responsibilities: task specification, context selection, tool access, project memory, task state, observability, failure attribution, verification, permissions, entropy auditing, and intervention recording"
arxiv.org ↗
The four-level ladder H0–H3 progressively exposes runtime support to the agent
"we operationalize the harness through a four-level ladder (H0-H3) that progressively exposes runtime support to the agent"
arxiv.org ↗
At lower harness levels episode packages contain only a patch; at higher levels they include reproduction logs, failure attributions, deterministic requirement checks, and structured verification reports
"lower levels produce only a final patch, higher levels produce reproduction logs, failure attributions, deterministic requirement checks, and structured verification reports"
arxiv.org ↗
The framework reframes the central question from whether a model can produce a patch to whether the model-harness-environment system can produce a verifiably correct, attributed, and maintainable change
"The framework reframes the central question of autonomous software engineering from whether a foundation model can produce a patch to whether the model-harness-environment system can produce a verifiably correct, attributed, and maintainable change"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Por que Agentes em Produção Falham Sem Infraestrutura de Harness

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.