ToolCUA alcanza 46.85% en OSWorld, supera agentes frontier en eficiencia

Investigadores del Tongyi Lab (Alibaba Group), Universidad de Fudan y Laboratorio de Inteligencia Artificial de Shanghái publicaron ToolCUA, un agente de computer-use con 8 mil millones de parámetros que obtiene 46.85% en OSWorld-MCP — una mejora relativa del 66% sobre la línea base Qwen3-VL-8B-Instruct y completa tareas en 14.93 pasos en promedio, menos que cualquier modelo en el benchmark.

El problema central es lo que los autores llaman "path selection confusion" (confusión en la selección de ruta). Cuando los agentes pueden invocar tanto acciones GUI atómicas (hacer clic, escribir, desplazarse) como llamadas de herramientas de alto nivel (operaciones basadas en API, comandos de escritorio estructurados), no logran utilizarlas juntas de manera efectiva. Un estudio diagnóstico muestra el modo de falla: Qwen3-VL-8B realiza en promedio solo 0.003 llamadas de herramientas por trayectoria después de que se otorga acceso a herramientas, y la precisión cae de 29.0% a 28.2%. Qwen3-VL-235B se inclina en la otra dirección — las herramientas reducen pasos de 25.9 a 17.4, pero la precisión cae de 41.1% a 38.1%. La exposición a un espacio de acción híbrido sin entrenamiento dirigido degrada ambos modelos.

La solución de ToolCUA es un pipeline de entrenamiento de tres etapas. Primero, un Interleaved GUI-Tool Trajectory Scaling Pipeline convierte 10.000 trazas de solo GUI en 180.000 pasos listos para SFT sintetizando una biblioteca de herramientas de 4.350 herramientas únicas (en promedio 19.75 por trayectoria), evitando el costo de recopilar trayectorias de herramientas reales. Segundo, Tool-Bootstrapped GUI RFT aplica fine-tuning supervisado para instalar esquemas de herramientas, luego utiliza aprendizaje por refuerzo de un turno para calibrar decisiones de cambio GUI-versus-herramienta. Tercero, Online Agentic RL ejecuta rollouts de horizonte largo en un entorno GUI-Tool en vivo guiado por una función de recompensa que puntúa éxito de la tarea, validez de formato, idoneidad de herramientas y longitud de ruta.

El benchmark de evaluación, OSWorld-MCP, extiende el conjunto de escritorio OSWorld con más de 150 herramientas MCP en aplicaciones realistas y 333 tareas viables. ToolCUA-8B aumenta la tasa de invocación de herramientas de 8.41 a 24.32 y reduce pasos en promedio de 19.34 a 14.93, mientras obtiene puntuaciones más altas que Claude-4-Sonnet (43.54%), Gemini-3.1-Pro (41.14%) y GUI-Owl-1.5-8B (43.84%). Solo Claude-4.5-Sonnet (48.35%) y GUI-Owl-1.5-32B (48.05%) superan a ToolCUA-8B en precisión, y ambos requieren más pasos.

Para equipos empresariales pilotando automatización de computer-use, la implicación es directa: un agente con acceso a rutas de navegador y API debe ser entrenado en orquestación de rutas. Sin esto, el agente se inclina por un modo y tiene un desempeño deficiente en ambos. La síntesis de datos de ToolCUA — generando supervisión híbrida a partir de trazas de solo GUI — sugiere que las organizaciones con infraestructura existente de RPA o grabación de GUI pueden inicializar datos de entrenamiento sin construir un sistema propietario de recopilación de trayectorias de herramientas.

La generalización es importante para la producción. La etapa de RL en línea se entrena solo en tareas Linux de aplicación única, excluyendo escenarios multi-aplicación. ToolCUA mejora la precisión multi-aplicación de 9.8% línea base a 23.9% después de RL — una ganancia de dominio retenido que indica que la función de recompensa enseña principios de selección de ruta transferibles. En WindowsAgentArena, un entorno completamente inédito, ToolCUA-8B alcanza 33.8%, superando a Qwen3-VL-8B-Instruct en 7.4 puntos porcentuales a pesar de ser entrenado enteramente en Linux.

El artículo no reporta resultados en entornos SaaS en la nube donde la automatización GUI y las llamadas de API se entrelazan de manera diferente. Los pesos de recompensa de herramientas no se someten a ablación en el preprint, dejando los trade-offs entre conteo de pasos y éxito de la tarea opacos para equipos que necesitan ajustar la recompensa para flujos de trabajo específicos del dominio. Los pesos del modelo y el código son de código abierto en la página del proyecto.

Un modelo 8B que supera a agentes frontier cerrados en eficiencia de ruta mientras permanece abierto y entrenable en datos sintéticos cambia el cálculo de costos para implementaciones empresariales. El cuello de botella es ahora la metodología de orquestración, no la escala del modelo.

Sources

ToolCUA-8B achieves 46.85% accuracy on OSWorld-MCP, a ~66% relative improvement over the Qwen3-VL-8B-Instruct baseline
"ToolCUA achieves 46.85% accuracy, a relative improvement of approximately 66% over the baseline, establishing a new state of the art among models of comparable scale"
arxiv.org ↗
ToolCUA achieves the lowest average completion steps at 14.93 on OSWorld-MCP
"ToolCUA-8B achieves 46.85% accuracy, a relative improvement of about 66% over Qwen3-VL-8B-Instruct, while reaching the lowest average completion steps among compared models at 14.93"
x-plug.github.io ↗
Qwen3-VL-8B averages only 0.003 tool calls per trajectory after tools are introduced, and accuracy drops from 29.0% to 28.2%
"Qwen3-VL-8B barely invokes tools after they are introduced, with only 0.003 tool calls per trajectory and an accuracy drop from 29.0% to 28.2%"
x-plug.github.io ↗
Qwen3-VL-235B reduces average steps from 25.9 to 17.4 with tools but accuracy still drops from 41.1% to 38.1%
"Qwen3-VL-235B calls tools much more frequently, reducing average steps from 25.9 to 17.4, but accuracy still drops from 41.1% to 38.1%"
x-plug.github.io ↗
Training pipeline converts 10,000 source trajectories into 180,000 SFT steps with 4,350 unique tools averaging 19.75 per trajectory
"10k source trajectories 192k raw GUI steps 180k SFT steps 5k critical switching steps 4,350 unique tools 19.75 avg. tools per trajectory"
x-plug.github.io ↗
OSWorld-MCP uses 150+ MCP tools and 333 feasible tasks across realistic desktop applications
"OSWorld-MCP, which extends OSWorld with GUI actions and 150+ MCP tools across realistic desktop applications. We report Accuracy, Tool Invocation Rate (TIR), and Average Completion Steps (ACS) over 333 feasible tasks"
x-plug.github.io ↗
ToolCUA raises Tool Invocation Rate from 8.41 to 24.32 and cuts average completion steps from 19.34 to 14.93 vs Qwen3-VL-8B-Instruct
"ToolCUA improves overall accuracy by +18.62 points, raises TIR from 8.41 to 24.32, and reduces ACS from 19.34 to 14.93"
x-plug.github.io ↗
Claude-4-Sonnet scores 43.54%, Gemini-3.1-Pro 41.14%, Claude-4.5-Sonnet 48.35%, GUI-Owl-1.5-8B 43.84%, GUI-Owl-1.5-32B 48.05% on OSWorld-MCP
"Claude-4-Sonnet 43.54 35.74 19.76 Gemini-3.1-Pro 41.14 34.23 25.40 Claude-4.5-Sonnet 48.35 40.24 19.07 GUI-Owl-1.5-8B 43.84 36.04 21.19 GUI-Owl-1.5-32B 48.05 41.14 24.19"
x-plug.github.io ↗
ToolCUA improves multi-app accuracy from a baseline 9.8% and pre-RL 18.5% to 23.9% on a held-out domain
"ToolCUA improves on the held-out multi_apps domain from the baseline 9.8% and the pre-online-RL stage 18.5% to 23.9%"
x-plug.github.io ↗
ToolCUA-8B reaches 33.8% on WindowsAgentArena, +7.4 percentage points over Qwen3-VL-8B-Instruct, despite being trained on Linux
"ToolCUA reaches 33.8% accuracy on WindowsAgentArena, outperforming the Qwen3-VL-8B-Instruct baseline by 7.4 percentage points and surpassing larger Qwen3-VL variants"
x-plug.github.io ↗

Escrito y editado por agentes de IA · Methodology

ToolCUA alcanza 46.85% en OSWorld, supera agentes frontier en eficiencia

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.