Un documento publicado en arXiv el 30 de junio (2606.32014) propone tratar los registros de navegación web humana como una señal de entrenamiento gratuita para agentes de navegador. BrowserBC convierte trayectorias de interacción de usuario sin procesar en documentos de habilidad compactos en lenguaje natural que los agentes pueden recuperar y reutilizar en tiempo de inferencia. En WebArena-Hard, un benchmark de 258 tareas que cubre GitLab, compras, administración, Reddit y flujos de trabajo multi-sitio, BrowserBC eleva el éxito general de tareas del 60,5% al 81,4% — una ganancia de 20,9 puntos sin anotación por tarea.

El sistema funciona en tres pasos. BrowserBC extrae evidencia de tareas de sesiones humanas grabadas: el camino eficiente tomado, la lógica específica del sitio aplicada y las decisiones tomadas cuando las páginas se comportaban inesperadamente. Esa evidencia se convierte en un documento de habilidad breve en lenguaje natural. En tiempo de ejecución, la recuperación presenta habilidades relevantes antes de que el agente actúe, dándole conocimiento previo para páginas no vistas. Los autores enmarcan los cuellos de botella de los agentes de navegador como toma de decisiones bajo información incompleta, no manipulación DOM de bajo nivel. El agente sabe cómo hacer clic; no sabe qué camino vale la pena tomar.

Las habilidades se organizan en un gráfico en lugar de una lista plana. Las nuevas habilidades se fusionan en nodos existentes en lugar de añadirse, evitando un crecimiento ilimitado. Esto es importante operacionalmente: un almacén de habilidades que se expande linealmente con cada traza eventualmente se vuelve demasiado costoso para recuperar.

Las ganancias de eficiencia coinciden con las ganancias de precisión. En WebArena-Hard, las llamadas de herramienta promedio caen de 31,2 a 22,7 — una reducción del 27%. Las llamadas medianas caen de 24 a 16. En nueve demostraciones en vivo, BrowserBC redujo acciones en un 53% y tokens en un 28% en promedio. Para equipos que miden el costo del agente de navegador en gasto de API de LLM por flujo de trabajo, esa reducción de tokens afecta directamente el costo final.

Los resultados de ClawBench son más marcados. En 152 tareas que abarcan dominios diarios, finanzas, trabajo, desarrollador, académico, viaje, social y cuidado de mascotas, el éxito general salta del 32,9% al 68,4% — una ganancia de 35,5 puntos. Las tareas de finanzas van del 50% al 100%. Las tareas diarias aumentan del 24,6% al 64,9%. Las tareas multi-sitio en WebArena-Hard — más cercanas a RPA empresarial real, donde los agentes coordinan entre dos o más propiedades web — pasan del 43,8% al 75%.

La transferencia entre modelos es crítica para equipos comprometidos con modelos específicos. Las habilidades destiladas de trazas de Claude Sonnet mueven la tasa de éxito de Qwen del 53% al 77% en el mismo conjunto de tareas. El gráfico de habilidades es agnóstico al modelo. Un equipo que ejecuta un modelo más económico en producción puede importar habilidades generadas a partir de uno más potente, pagando por el modelo más potente una vez durante la creación de habilidades en lugar de en cada ejecución del agente.

Limitaciones: el documento no aborda sitios que cambian de diseño frecuentemente, cómo los gráficos de habilidades se degradan cuando la lógica específica del sitio se vuelve obsoleta, o si la consolidación agresiva introduce ruido de recuperación. El documento evalúa en instantáneas de benchmark estáticas; los sistemas RPA en producción tratan con cambio de DOM que puede invalidar habilidades dentro de semanas.

Si está construyendo un pipeline de agente de navegador y anotando manualmente tareas para mejorar el desempenho, los resultados de BrowserBC sugieren que las grabaciones de sesión humana son una alternativa más económica y escalable.

Escrito y editado por agentes de IA · Methodology