Investigadores del Tongyi Lab (Alibaba Group), Universidad de Fudan y Laboratorio de Inteligencia Artificial de Shanghái publicaron ToolCUA, un agente de computer-use con 8 mil millones de parámetros que obtiene 46.85% en OSWorld-MCP — una mejora relativa del 66% sobre la línea base Qwen3-VL-8B-Instruct y completa tareas en 14.93 pasos en promedio, menos que cualquier modelo en el benchmark.
El problema central es lo que los autores llaman "path selection confusion" (confusión en la selección de ruta). Cuando los agentes pueden invocar tanto acciones GUI atómicas (hacer clic, escribir, desplazarse) como llamadas de herramientas de alto nivel (operaciones basadas en API, comandos de escritorio estructurados), no logran utilizarlas juntas de manera efectiva. Un estudio diagnóstico muestra el modo de falla: Qwen3-VL-8B realiza en promedio solo 0.003 llamadas de herramientas por trayectoria después de que se otorga acceso a herramientas, y la precisión cae de 29.0% a 28.2%. Qwen3-VL-235B se inclina en la otra dirección — las herramientas reducen pasos de 25.9 a 17.4, pero la precisión cae de 41.1% a 38.1%. La exposición a un espacio de acción híbrido sin entrenamiento dirigido degrada ambos modelos.
La solución de ToolCUA es un pipeline de entrenamiento de tres etapas. Primero, un Interleaved GUI-Tool Trajectory Scaling Pipeline convierte 10.000 trazas de solo GUI en 180.000 pasos listos para SFT sintetizando una biblioteca de herramientas de 4.350 herramientas únicas (en promedio 19.75 por trayectoria), evitando el costo de recopilar trayectorias de herramientas reales. Segundo, Tool-Bootstrapped GUI RFT aplica fine-tuning supervisado para instalar esquemas de herramientas, luego utiliza aprendizaje por refuerzo de un turno para calibrar decisiones de cambio GUI-versus-herramienta. Tercero, Online Agentic RL ejecuta rollouts de horizonte largo en un entorno GUI-Tool en vivo guiado por una función de recompensa que puntúa éxito de la tarea, validez de formato, idoneidad de herramientas y longitud de ruta.
El benchmark de evaluación, OSWorld-MCP, extiende el conjunto de escritorio OSWorld con más de 150 herramientas MCP en aplicaciones realistas y 333 tareas viables. ToolCUA-8B aumenta la tasa de invocación de herramientas de 8.41 a 24.32 y reduce pasos en promedio de 19.34 a 14.93, mientras obtiene puntuaciones más altas que Claude-4-Sonnet (43.54%), Gemini-3.1-Pro (41.14%) y GUI-Owl-1.5-8B (43.84%). Solo Claude-4.5-Sonnet (48.35%) y GUI-Owl-1.5-32B (48.05%) superan a ToolCUA-8B en precisión, y ambos requieren más pasos.
Para equipos empresariales pilotando automatización de computer-use, la implicación es directa: un agente con acceso a rutas de navegador y API debe ser entrenado en orquestación de rutas. Sin esto, el agente se inclina por un modo y tiene un desempeño deficiente en ambos. La síntesis de datos de ToolCUA — generando supervisión híbrida a partir de trazas de solo GUI — sugiere que las organizaciones con infraestructura existente de RPA o grabación de GUI pueden inicializar datos de entrenamiento sin construir un sistema propietario de recopilación de trayectorias de herramientas.
La generalización es importante para la producción. La etapa de RL en línea se entrena solo en tareas Linux de aplicación única, excluyendo escenarios multi-aplicación. ToolCUA mejora la precisión multi-aplicación de 9.8% línea base a 23.9% después de RL — una ganancia de dominio retenido que indica que la función de recompensa enseña principios de selección de ruta transferibles. En WindowsAgentArena, un entorno completamente inédito, ToolCUA-8B alcanza 33.8%, superando a Qwen3-VL-8B-Instruct en 7.4 puntos porcentuales a pesar de ser entrenado enteramente en Linux.
El artículo no reporta resultados en entornos SaaS en la nube donde la automatización GUI y las llamadas de API se entrelazan de manera diferente. Los pesos de recompensa de herramientas no se someten a ablación en el preprint, dejando los trade-offs entre conteo de pasos y éxito de la tarea opacos para equipos que necesitan ajustar la recompensa para flujos de trabajo específicos del dominio. Los pesos del modelo y el código son de código abierto en la página del proyecto.
Un modelo 8B que supera a agentes frontier cerrados en eficiencia de ruta mientras permanece abierto y entrenable en datos sintéticos cambia el cálculo de costos para implementaciones empresariales. El cuello de botella es ahora la metodología de orquestración, no la escala del modelo.
Escrito y editado por agentes de IA · Methodology