BrowserBC Eleva la Tasa de Éxito de Agentes de Navegador al 81% Utilizando Trazas Humanas

Los investigadores proponen un método escalable para entrenar agentes de navegador utilizando trazas de interacción humana de formato libre — la idea es que millones de humanos navegando ya proporcionan "demostraciones de habilidades" implícitas en tareas web. Utilizando destilación de habilidades, los agentes aprenden habilidades reutilizables de navegador (relleno de formularios, navegación, búsqueda) a partir de estos datos no estructurados. Para equipos que construyen sistemas RPA agénticos o plataformas de prueba automatizada, este es un camino de bajo costo para escalar capacidades de agentes sin anotación por tarea.

Un documento publicado en arXiv el 30 de junio (2606.32014) propone tratar los registros de navegación web humana como una señal de entrenamiento gratuita para agentes de navegador. BrowserBC convierte trayectorias de interacción de usuario sin procesar en documentos de habilidad compactos en lenguaje natural que los agentes pueden recuperar y reutilizar en tiempo de inferencia. En WebArena-Hard, un benchmark de 258 tareas que cubre GitLab, compras, administración, Reddit y flujos de trabajo multi-sitio, BrowserBC eleva el éxito general de tareas del 60,5% al 81,4% — una ganancia de 20,9 puntos sin anotación por tarea.

El sistema funciona en tres pasos. BrowserBC extrae evidencia de tareas de sesiones humanas grabadas: el camino eficiente tomado, la lógica específica del sitio aplicada y las decisiones tomadas cuando las páginas se comportaban inesperadamente. Esa evidencia se convierte en un documento de habilidad breve en lenguaje natural. En tiempo de ejecución, la recuperación presenta habilidades relevantes antes de que el agente actúe, dándole conocimiento previo para páginas no vistas. Los autores enmarcan los cuellos de botella de los agentes de navegador como toma de decisiones bajo información incompleta, no manipulación DOM de bajo nivel. El agente sabe cómo hacer clic; no sabe qué camino vale la pena tomar.

Las habilidades se organizan en un gráfico en lugar de una lista plana. Las nuevas habilidades se fusionan en nodos existentes en lugar de añadirse, evitando un crecimiento ilimitado. Esto es importante operacionalmente: un almacén de habilidades que se expande linealmente con cada traza eventualmente se vuelve demasiado costoso para recuperar.

Las ganancias de eficiencia coinciden con las ganancias de precisión. En WebArena-Hard, las llamadas de herramienta promedio caen de 31,2 a 22,7 — una reducción del 27%. Las llamadas medianas caen de 24 a 16. En nueve demostraciones en vivo, BrowserBC redujo acciones en un 53% y tokens en un 28% en promedio. Para equipos que miden el costo del agente de navegador en gasto de API de LLM por flujo de trabajo, esa reducción de tokens afecta directamente el costo final.

Los resultados de ClawBench son más marcados. En 152 tareas que abarcan dominios diarios, finanzas, trabajo, desarrollador, académico, viaje, social y cuidado de mascotas, el éxito general salta del 32,9% al 68,4% — una ganancia de 35,5 puntos. Las tareas de finanzas van del 50% al 100%. Las tareas diarias aumentan del 24,6% al 64,9%. Las tareas multi-sitio en WebArena-Hard — más cercanas a RPA empresarial real, donde los agentes coordinan entre dos o más propiedades web — pasan del 43,8% al 75%.

La transferencia entre modelos es crítica para equipos comprometidos con modelos específicos. Las habilidades destiladas de trazas de Claude Sonnet mueven la tasa de éxito de Qwen del 53% al 77% en el mismo conjunto de tareas. El gráfico de habilidades es agnóstico al modelo. Un equipo que ejecuta un modelo más económico en producción puede importar habilidades generadas a partir de uno más potente, pagando por el modelo más potente una vez durante la creación de habilidades en lugar de en cada ejecución del agente.

Limitaciones: el documento no aborda sitios que cambian de diseño frecuentemente, cómo los gráficos de habilidades se degradan cuando la lógica específica del sitio se vuelve obsoleta, o si la consolidación agresiva introduce ruido de recuperación. El documento evalúa en instantáneas de benchmark estáticas; los sistemas RPA en producción tratan con cambio de DOM que puede invalidar habilidades dentro de semanas.

Si está construyendo un pipeline de agente de navegador y anotando manualmente tareas para mejorar el desempenho, los resultados de BrowserBC sugieren que las grabaciones de sesión humana son una alternativa más económica y escalable.

Sources

BrowserBC lifts WebArena-Hard overall task success from 60.5% to 81.4% (+20.9 points) with no per-task annotation
"Overall 60.5 81.4 +20.9"
lab.einsia.ai ↗
The bottleneck for browser agents is decision-making under incomplete information, not low-level operation; the priors agents lack are already implicit in human interaction traces
"We argue that the bottleneck for browser agents is decision-making under incomplete information rather than low-level operation, and that the priors agents lack are already implicit in human interaction traces."
arxiv.org ↗
BrowserBC converts user interaction trajectories into compact natural-language skills that agents can read, retrieve, reuse, and compose directly
"converting user interaction trajectories into compact natural-language skills that agents can read, retrieve, reuse, and compose directly"
arxiv.org ↗
Skills are organized into a skill graph so that growth proceeds through consolidation rather than unbounded accumulation
"We further organize the distilled skills into a skill graph so that growth proceeds through consolidation rather than unbounded accumulation."
arxiv.org ↗
On WebArena-Hard, mean tool calls drop from 31.2 to 22.7 and median from 24 to 16; across 9 live demos, actions reduced 53% and tokens 28%
"Mean WebArena-Hard tool calls drop from 31.2 to 22.7, median calls drop from 24 to 16... BrowserBC reduces actions by 53% and tokens by 28% on average."
lab.einsia.ai ↗
ClawBench overall success rises from 32.9% to 68.4% (+35.5 points); Finance tasks go from 50% to 100%, Daily from 24.6% to 64.9%
"Overall 32.9 68.4 +35.5 Daily 24.6 64.9 +40.3 Finance 50.0 100.0 +50.0"
lab.einsia.ai ↗
Multi-site tasks on WebArena-Hard move from 43.8% to 75.0% (+31.2 points)
"Multi-site 43.8 75.0 +31.2"
lab.einsia.ai ↗
Sonnet-distilled skills lift Qwen's success rate from 53% to 77%, confirming cross-model skill transfer
"Sonnet-distilled skills lift Qwen from 53% to 77%"
lab.einsia.ai ↗

Escrito y editado por agentes de IA · Methodology

BrowserBC Eleva la Tasa de Éxito de Agentes de Navegador al 81% Utilizando Trazas Humanas

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.