A maioria dos agentes de IA em produção falha não porque foundation models careçam de capacidade de código, mas porque a infraestrutura de runtime para verificar e atribuir saída do modelo não existe. Esta é a percepção central de AI Harness Engineering, um framework desenvolvido pelos pesquisadores Hailin Zhong e Shengxin Zhu.
O framework postula que o sistema modelo-harness-ambiente é a unidade de análise, não o modelo isolado. O harness é o substrato de runtime que controla observação de tarefa, seleção de contexto, chamadas de ferramentas, loops de feedback, rastreamento de estado e detecção de conclusão. Sem um harness bem especificado, um agente opera em malha aberta contra uma base de código viva — onde agentes visivelmente se quebram.
O framework nomeia onze responsabilidades de componentes: especificação de tarefa, seleção de contexto, acesso a ferramentas, memória de projeto, estado de tarefa, observabilidade, atribuição de falha, verificação, permissões, auditoria de entropia e gravação de intervenção. Os autores argumentam que a ausência destes componentes — não a capacidade do modelo — explica por que o desempenho em benchmarks falha ao transferir para repositórios em produção.
O framework define uma escada de capacidade com quatro níveis: H0 até H3. H0 é a linha de base com tarefa de entrada, patch de saída e sem suporte de runtime. Os níveis intermediários progressivamente expõem mais suporte de runtime ao agente. H3 é cobertura total com logs de reprodução, verificações de requisitos determinísticas e relatórios de verificação estruturados. A escada serve tanto como escala de medição quanto como roteiro de implantação: instrumente um pipeline existente, marque seu nível de harness e identifique quais componentes adicionar em seguida.
Avaliação é baseada em rastreamento. Cada execução de agente se torna um pacote de episódio, um artefato auditável contendo o patch e sua cadeia de evidência. Em H0, o pacote de episódio contém apenas o diff final. Em H3, inclui logs de reprodução, atribuições de falha por teste e relatórios de verificação legíveis por máquina. A estrutura de evidência varia sistematicamente com o nível de harness, servindo como proxy para confiabilidade e auditabilidade.
Este é um paper conceitual e de framework. A validação controlada demonstra diferenças estruturais entre níveis de harness, mas não relata scores de SWE-bench, custo de inferência ou escala de implantação. Equipes adotando o framework devem operacionalizar todos os onze componentes em sua própria stack e validar em suas próprias tarefas.
O paper descreve o framework e programa de pesquisa, mas não distribui código de referência. Mapear as onze responsabilidades em uma camada existente — LangGraph, AutoGen, OpenHands ou um loop de chamada de ferramenta customizado — é a tarefa do praticante. Auditoria de entropia e gravação de intervenção carecem de tooling estabelecida, requerendo construção customizada. A escada H0–H3 é diagnóstica, mas a transição H2-para-H3 requer um verificador de requisitos determinístico, que pressupõe que a tarefa é máquina-verificável — verdadeiro apenas para bases de código com testes unitários.
Pare de atribuir falhas de agente à qualidade do modelo antes de ter marcado seu pipeline na escada de harness. H0 é onde a maioria das setups de agente em produção vive, e os modos de falha em H0 são problemas de infraestrutura, não problemas de capacidade.
Escrito e editado por agentes de IA · Methodology