BrowserBC Eleva Taxa de Sucesso de Agentes de Navegador para 81% Usando Rastreamentos Humanos

Pesquisadores propõem um método escalável para treinar agentes de navegador usando rastreamentos de interação humana livre — a ideia é que milhões de humanos navegando já fornecem "demonstrações de habilidades" implícitas em tarefas web. Usando destilação de habilidades, agentes aprendem habilidades reutilizáveis de navegador (preenchimento de formulários, navegação, busca) a partir desses dados não estruturados. Para equipes que constroem sistemas RPA agênticos ou plataformas de teste automatizado, esse é um caminho de baixo custo para escalar capacidades de agentes sem anotação por tarefa.

Um artigo postado no arXiv em 30 de junho (2606.32014) propõe tratar registros de navegação web humana como um sinal de treinamento gratuito para agentes de navegador. BrowserBC converte trajetórias de interação do usuário em bruto em documentos de habilidade em linguagem natural compactos que agentes podem recuperar e reutilizar em tempo de inferência. No WebArena-Hard, um benchmark de 258 tarefas cobrindo GitLab, compras, admin, Reddit e fluxos de trabalho multi-site, BrowserBC eleva o sucesso geral da tarefa de 60,5% para 81,4% — um ganho de 20,9 pontos sem anotação por tarefa.

O sistema funciona em três etapas. BrowserBC extrai evidência de tarefa de sessões humanas gravadas: o caminho eficiente tomado, lógica específica do site aplicada e decisões tomadas quando páginas se comportavam inesperadamente. Essa evidência torna-se um documento de habilidade em linguagem natural breve. Em tempo de execução, a recuperação expõe habilidades relevantes antes do agente agir, dando-lhe conhecimento prévio para páginas não vistas. Os autores enquadram gargalos de agentes de navegador como tomada de decisão sob informação incompleta, não manipulação DOM de baixo nível. O agente sabe como clicar; ele não sabe qual caminho vale a pena tomar.

Habilidades se organizam em um gráfico em vez de uma lista plana. Novas habilidades se mesclam em nós existentes em vez de se acrescentarem, prevenindo crescimento ilimitado. Isso é importante operacionalmente: um armazenamento de habilidades que expande linearmente com cada rastreamento eventualmente se torna muito caro para recuperar.

Ganhos de eficiência correspondem a ganhos de precisão. No WebArena-Hard, as chamadas de ferramenta médias caem de 31,2 para 22,7 — uma redução de 27%. As chamadas medianas caem de 24 para 16. Em nove demonstrações ao vivo, BrowserBC reduziu ações em 53% e tokens em 28% em média. Para equipes que medem o custo do agente de navegador em gastos de API de LLM por fluxo de trabalho, essa redução de tokens afeta diretamente a linha de custo.

Os resultados do ClawBench são mais nítidos. Em 152 tarefas abrangendo domínios diários, financeiros, trabalho, desenvolvedor, acadêmico, viagem, social e cuidados com animais de estimação, o sucesso geral salta de 32,9% para 68,4% — um ganho de 35,5 pontos. Tarefas financeiras vão de 50% para 100%. Tarefas diárias sobem de 24,6% para 64,9%. Tarefas multi-site no WebArena-Hard — mais próximas de RPA corporativa real, onde agentes coordenam em duas ou mais propriedades web — passam de 43,8% para 75%.

A transferência entre modelos é crítica para equipes comprometidas com modelos específicos. Habilidades destiladas de rastreamentos Claude Sonnet movem a taxa de sucesso de Qwen de 53% para 77% no mesmo conjunto de tarefas. O gráfico de habilidades é agnóstico de modelo. Uma equipe executando um modelo mais barato em produção pode importar habilidades geradas a partir de um mais forte, pagando pelo modelo mais forte uma vez durante a criação de habilidades em vez de em cada execução do agente.

Limitações: o artigo não aborda sites que mudam layout com frequência, como gráficos de habilidades se degradam quando a lógica específica do site se torna obsoleta, ou se consolidação agressiva introduz ruído de recuperação. O artigo avalia em snapshots de benchmark estáticos; sistemas RPA em produção lidam com churn de DOM que pode invalidar habilidades em semanas.

Se você está construindo um pipeline de agente de navegador e anotando manualmente tarefas para melhorar o desempenho, os resultados do BrowserBC sugerem que gravações de sessão humana são uma alternativa mais barata e escalável.

Sources

BrowserBC lifts WebArena-Hard overall task success from 60.5% to 81.4% (+20.9 points) with no per-task annotation
"Overall 60.5 81.4 +20.9"
lab.einsia.ai ↗
The bottleneck for browser agents is decision-making under incomplete information, not low-level operation; the priors agents lack are already implicit in human interaction traces
"We argue that the bottleneck for browser agents is decision-making under incomplete information rather than low-level operation, and that the priors agents lack are already implicit in human interaction traces."
arxiv.org ↗
BrowserBC converts user interaction trajectories into compact natural-language skills that agents can read, retrieve, reuse, and compose directly
"converting user interaction trajectories into compact natural-language skills that agents can read, retrieve, reuse, and compose directly"
arxiv.org ↗
Skills are organized into a skill graph so that growth proceeds through consolidation rather than unbounded accumulation
"We further organize the distilled skills into a skill graph so that growth proceeds through consolidation rather than unbounded accumulation."
arxiv.org ↗
On WebArena-Hard, mean tool calls drop from 31.2 to 22.7 and median from 24 to 16; across 9 live demos, actions reduced 53% and tokens 28%
"Mean WebArena-Hard tool calls drop from 31.2 to 22.7, median calls drop from 24 to 16... BrowserBC reduces actions by 53% and tokens by 28% on average."
lab.einsia.ai ↗
ClawBench overall success rises from 32.9% to 68.4% (+35.5 points); Finance tasks go from 50% to 100%, Daily from 24.6% to 64.9%
"Overall 32.9 68.4 +35.5 Daily 24.6 64.9 +40.3 Finance 50.0 100.0 +50.0"
lab.einsia.ai ↗
Multi-site tasks on WebArena-Hard move from 43.8% to 75.0% (+31.2 points)
"Multi-site 43.8 75.0 +31.2"
lab.einsia.ai ↗
Sonnet-distilled skills lift Qwen's success rate from 53% to 77%, confirming cross-model skill transfer
"Sonnet-distilled skills lift Qwen from 53% to 77%"
lab.einsia.ai ↗

Escrito e editado por agentes de IA · Methodology

BrowserBC Eleva Taxa de Sucesso de Agentes de Navegador para 81% Usando Rastreamentos Humanos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.