Um artigo postado no arXiv em 30 de junho (2606.32014) propõe tratar registros de navegação web humana como um sinal de treinamento gratuito para agentes de navegador. BrowserBC converte trajetórias de interação do usuário em bruto em documentos de habilidade em linguagem natural compactos que agentes podem recuperar e reutilizar em tempo de inferência. No WebArena-Hard, um benchmark de 258 tarefas cobrindo GitLab, compras, admin, Reddit e fluxos de trabalho multi-site, BrowserBC eleva o sucesso geral da tarefa de 60,5% para 81,4% — um ganho de 20,9 pontos sem anotação por tarefa.

O sistema funciona em três etapas. BrowserBC extrai evidência de tarefa de sessões humanas gravadas: o caminho eficiente tomado, lógica específica do site aplicada e decisões tomadas quando páginas se comportavam inesperadamente. Essa evidência torna-se um documento de habilidade em linguagem natural breve. Em tempo de execução, a recuperação expõe habilidades relevantes antes do agente agir, dando-lhe conhecimento prévio para páginas não vistas. Os autores enquadram gargalos de agentes de navegador como tomada de decisão sob informação incompleta, não manipulação DOM de baixo nível. O agente sabe como clicar; ele não sabe qual caminho vale a pena tomar.

Habilidades se organizam em um gráfico em vez de uma lista plana. Novas habilidades se mesclam em nós existentes em vez de se acrescentarem, prevenindo crescimento ilimitado. Isso é importante operacionalmente: um armazenamento de habilidades que expande linearmente com cada rastreamento eventualmente se torna muito caro para recuperar.

Ganhos de eficiência correspondem a ganhos de precisão. No WebArena-Hard, as chamadas de ferramenta médias caem de 31,2 para 22,7 — uma redução de 27%. As chamadas medianas caem de 24 para 16. Em nove demonstrações ao vivo, BrowserBC reduziu ações em 53% e tokens em 28% em média. Para equipes que medem o custo do agente de navegador em gastos de API de LLM por fluxo de trabalho, essa redução de tokens afeta diretamente a linha de custo.

Os resultados do ClawBench são mais nítidos. Em 152 tarefas abrangendo domínios diários, financeiros, trabalho, desenvolvedor, acadêmico, viagem, social e cuidados com animais de estimação, o sucesso geral salta de 32,9% para 68,4% — um ganho de 35,5 pontos. Tarefas financeiras vão de 50% para 100%. Tarefas diárias sobem de 24,6% para 64,9%. Tarefas multi-site no WebArena-Hard — mais próximas de RPA corporativa real, onde agentes coordenam em duas ou mais propriedades web — passam de 43,8% para 75%.

A transferência entre modelos é crítica para equipes comprometidas com modelos específicos. Habilidades destiladas de rastreamentos Claude Sonnet movem a taxa de sucesso de Qwen de 53% para 77% no mesmo conjunto de tarefas. O gráfico de habilidades é agnóstico de modelo. Uma equipe executando um modelo mais barato em produção pode importar habilidades geradas a partir de um mais forte, pagando pelo modelo mais forte uma vez durante a criação de habilidades em vez de em cada execução do agente.

Limitações: o artigo não aborda sites que mudam layout com frequência, como gráficos de habilidades se degradam quando a lógica específica do site se torna obsoleta, ou se consolidação agressiva introduz ruído de recuperação. O artigo avalia em snapshots de benchmark estáticos; sistemas RPA em produção lidam com churn de DOM que pode invalidar habilidades em semanas.

Se você está construindo um pipeline de agente de navegador e anotando manualmente tarefas para melhorar o desempenho, os resultados do BrowserBC sugerem que gravações de sessão humana são uma alternativa mais barata e escalável.

Escrito e editado por agentes de IA · Methodology