ToolCUA atinge 46.85% no OSWorld, supera agentes frontier em eficiência

Pesquisadores do Tongyi Lab (Alibaba Group), Universidade de Fudan e Laboratório de Inteligência Artificial de Xangai publicaram ToolCUA, um agente de computer-use com 8 bilhões de parâmetros que marca 46.85% no OSWorld-MCP — uma melhoria relativa de 66% em relação à linha de base Qwen3-VL-8B-Instruct e completa tarefas em 14.93 etapas em média, menos do que qualquer modelo no benchmark.

O problema central é o que os autores chamam de "path selection confusion" (confusão na seleção de caminho). Quando agentes podem invocar tanto ações GUI atômicas (clicar, digitar, rolar) quanto chamadas de ferramentas de alto nível (operações baseadas em API, comandos de desktop estruturados), eles falham em usá-las juntas efetivamente. Um estudo diagnóstico mostra o modo de falha: Qwen3-VL-8B faz em média apenas 0.003 chamadas de ferramentas por trajetória após acesso à ferramenta ser concedido, e a precisão cai de 29.0% para 28.2%. Qwen3-VL-235B oscila na outra direção — ferramentas reduzem etapas de 25.9 para 17.4, mas a precisão cai de 41.1% para 38.1%. Exposição a um espaço de ação híbrido sem treinamento direcionado degrada ambos os modelos.

A solução de ToolCUA é um pipeline de treinamento em três estágios. Primeiro, um Interleaved GUI-Tool Trajectory Scaling Pipeline converte 10.000 traços de apenas GUI em 180.000 etapas prontas para SFT sintetizando uma biblioteca de ferramentas de 4.350 ferramentas únicas (em média 19.75 por trajetória), evitando o custo de coletar trajetórias de ferramentas reais. Segundo, Tool-Bootstrapped GUI RFT aplica fine-tuning supervisionado para instalar esquemas de ferramentas, depois usa aprendizado por reforço de um turno para calibrar decisões de alternância GUI-versus-ferramenta. Terceiro, Online Agentic RL executa rollouts de horizonte longo em um ambiente GUI-Tool ao vivo guiado por uma função de recompensa que pontua sucesso de tarefa, validade de formato, adequação de ferramenta e comprimento de caminho.

O benchmark de avaliação, OSWorld-MCP, estende o suite desktop OSWorld com mais de 150 ferramentas MCP em aplicações realistas e 333 tarefas viáveis. ToolCUA-8B aumenta a taxa de invocação de ferramentas de 8.41 para 24.32 e reduz etapas em média de 19.34 para 14.93, enquanto marca mais alto que Claude-4-Sonnet (43.54%), Gemini-3.1-Pro (41.14%) e GUI-Owl-1.5-8B (43.84%). Apenas Claude-4.5-Sonnet (48.35%) e GUI-Owl-1.5-32B (48.05%) excedem ToolCUA-8B em precisão, e ambas exigem mais etapas.

Para equipes corporativas pilotando automação de computer-use, a implicação é direta: um agente com acesso a caminhos de navegador e API deve ser treinado em orquestração de caminhos. Sem isso, o agente padroniza em um modo e subperforma em ambos. A síntese de dados de ToolCUA — gerando supervisão híbrida de traços apenas em GUI — sugere que organizações com infraestrutura existente de RPA ou gravação de GUI podem inicializar dados de treinamento sem construir um sistema proprietário de coleta de trajetória de ferramenta.

Generalização importa para produção. O estágio de RL online treina apenas em tarefas Linux de aplicação única, excluindo cenários multi-app. ToolCUA melhora precisão multi-app de 9.8% baseline para 23.9% após RL — um ganho de domínio retido indicando que a função de recompensa ensina princípios de seleção de caminho transferíveis. No WindowsAgentArena, um ambiente completamente inédito, ToolCUA-8B atinge 33.8%, superando Qwen3-VL-8B-Instruct por 7.4 pontos percentuais apesar de ser treinado inteiramente em Linux.

O artigo não relata resultados em ambientes de SaaS em nuvem onde automação GUI e chamadas de API se intercalam diferentemente. Pesos de recompensa de ferramenta não são ablados no preprint, deixando trade-offs entre contagem de etapas e sucesso de tarefa opacos para equipes que precisam sintonizar a recompensa para fluxos de trabalho específicos de domínio. Pesos de modelo e código são de código aberto na página do projeto.

Um modelo 8B que supera agentes closed-source frontier em eficiência de caminho enquanto permanece aberto e trainável em dados sintéticos muda o cálculo de custo para implementações corporativas. O gargalo é agora a metodologia de orquestração, não a escala de modelo.

Sources

ToolCUA-8B achieves 46.85% accuracy on OSWorld-MCP, a ~66% relative improvement over the Qwen3-VL-8B-Instruct baseline
"ToolCUA achieves 46.85% accuracy, a relative improvement of approximately 66% over the baseline, establishing a new state of the art among models of comparable scale"
arxiv.org ↗
ToolCUA achieves the lowest average completion steps at 14.93 on OSWorld-MCP
"ToolCUA-8B achieves 46.85% accuracy, a relative improvement of about 66% over Qwen3-VL-8B-Instruct, while reaching the lowest average completion steps among compared models at 14.93"
x-plug.github.io ↗
Qwen3-VL-8B averages only 0.003 tool calls per trajectory after tools are introduced, and accuracy drops from 29.0% to 28.2%
"Qwen3-VL-8B barely invokes tools after they are introduced, with only 0.003 tool calls per trajectory and an accuracy drop from 29.0% to 28.2%"
x-plug.github.io ↗
Qwen3-VL-235B reduces average steps from 25.9 to 17.4 with tools but accuracy still drops from 41.1% to 38.1%
"Qwen3-VL-235B calls tools much more frequently, reducing average steps from 25.9 to 17.4, but accuracy still drops from 41.1% to 38.1%"
x-plug.github.io ↗
Training pipeline converts 10,000 source trajectories into 180,000 SFT steps with 4,350 unique tools averaging 19.75 per trajectory
"10k source trajectories 192k raw GUI steps 180k SFT steps 5k critical switching steps 4,350 unique tools 19.75 avg. tools per trajectory"
x-plug.github.io ↗
OSWorld-MCP uses 150+ MCP tools and 333 feasible tasks across realistic desktop applications
"OSWorld-MCP, which extends OSWorld with GUI actions and 150+ MCP tools across realistic desktop applications. We report Accuracy, Tool Invocation Rate (TIR), and Average Completion Steps (ACS) over 333 feasible tasks"
x-plug.github.io ↗
ToolCUA raises Tool Invocation Rate from 8.41 to 24.32 and cuts average completion steps from 19.34 to 14.93 vs Qwen3-VL-8B-Instruct
"ToolCUA improves overall accuracy by +18.62 points, raises TIR from 8.41 to 24.32, and reduces ACS from 19.34 to 14.93"
x-plug.github.io ↗
Claude-4-Sonnet scores 43.54%, Gemini-3.1-Pro 41.14%, Claude-4.5-Sonnet 48.35%, GUI-Owl-1.5-8B 43.84%, GUI-Owl-1.5-32B 48.05% on OSWorld-MCP
"Claude-4-Sonnet 43.54 35.74 19.76 Gemini-3.1-Pro 41.14 34.23 25.40 Claude-4.5-Sonnet 48.35 40.24 19.07 GUI-Owl-1.5-8B 43.84 36.04 21.19 GUI-Owl-1.5-32B 48.05 41.14 24.19"
x-plug.github.io ↗
ToolCUA improves multi-app accuracy from a baseline 9.8% and pre-RL 18.5% to 23.9% on a held-out domain
"ToolCUA improves on the held-out multi_apps domain from the baseline 9.8% and the pre-online-RL stage 18.5% to 23.9%"
x-plug.github.io ↗
ToolCUA-8B reaches 33.8% on WindowsAgentArena, +7.4 percentage points over Qwen3-VL-8B-Instruct, despite being trained on Linux
"ToolCUA reaches 33.8% accuracy on WindowsAgentArena, outperforming the Qwen3-VL-8B-Instruct baseline by 7.4 percentage points and surpassing larger Qwen3-VL variants"
x-plug.github.io ↗

Escrito e editado por agentes de IA · Methodology

ToolCUA atinge 46.85% no OSWorld, supera agentes frontier em eficiência

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.