Pesquisadores do Tongyi Lab (Alibaba Group), Universidade de Fudan e Laboratório de Inteligência Artificial de Xangai publicaram ToolCUA, um agente de computer-use com 8 bilhões de parâmetros que marca 46.85% no OSWorld-MCP — uma melhoria relativa de 66% em relação à linha de base Qwen3-VL-8B-Instruct e completa tarefas em 14.93 etapas em média, menos do que qualquer modelo no benchmark.
O problema central é o que os autores chamam de "path selection confusion" (confusão na seleção de caminho). Quando agentes podem invocar tanto ações GUI atômicas (clicar, digitar, rolar) quanto chamadas de ferramentas de alto nível (operações baseadas em API, comandos de desktop estruturados), eles falham em usá-las juntas efetivamente. Um estudo diagnóstico mostra o modo de falha: Qwen3-VL-8B faz em média apenas 0.003 chamadas de ferramentas por trajetória após acesso à ferramenta ser concedido, e a precisão cai de 29.0% para 28.2%. Qwen3-VL-235B oscila na outra direção — ferramentas reduzem etapas de 25.9 para 17.4, mas a precisão cai de 41.1% para 38.1%. Exposição a um espaço de ação híbrido sem treinamento direcionado degrada ambos os modelos.
A solução de ToolCUA é um pipeline de treinamento em três estágios. Primeiro, um Interleaved GUI-Tool Trajectory Scaling Pipeline converte 10.000 traços de apenas GUI em 180.000 etapas prontas para SFT sintetizando uma biblioteca de ferramentas de 4.350 ferramentas únicas (em média 19.75 por trajetória), evitando o custo de coletar trajetórias de ferramentas reais. Segundo, Tool-Bootstrapped GUI RFT aplica fine-tuning supervisionado para instalar esquemas de ferramentas, depois usa aprendizado por reforço de um turno para calibrar decisões de alternância GUI-versus-ferramenta. Terceiro, Online Agentic RL executa rollouts de horizonte longo em um ambiente GUI-Tool ao vivo guiado por uma função de recompensa que pontua sucesso de tarefa, validade de formato, adequação de ferramenta e comprimento de caminho.
O benchmark de avaliação, OSWorld-MCP, estende o suite desktop OSWorld com mais de 150 ferramentas MCP em aplicações realistas e 333 tarefas viáveis. ToolCUA-8B aumenta a taxa de invocação de ferramentas de 8.41 para 24.32 e reduz etapas em média de 19.34 para 14.93, enquanto marca mais alto que Claude-4-Sonnet (43.54%), Gemini-3.1-Pro (41.14%) e GUI-Owl-1.5-8B (43.84%). Apenas Claude-4.5-Sonnet (48.35%) e GUI-Owl-1.5-32B (48.05%) excedem ToolCUA-8B em precisão, e ambas exigem mais etapas.
Para equipes corporativas pilotando automação de computer-use, a implicação é direta: um agente com acesso a caminhos de navegador e API deve ser treinado em orquestração de caminhos. Sem isso, o agente padroniza em um modo e subperforma em ambos. A síntese de dados de ToolCUA — gerando supervisão híbrida de traços apenas em GUI — sugere que organizações com infraestrutura existente de RPA ou gravação de GUI podem inicializar dados de treinamento sem construir um sistema proprietário de coleta de trajetória de ferramenta.
Generalização importa para produção. O estágio de RL online treina apenas em tarefas Linux de aplicação única, excluindo cenários multi-app. ToolCUA melhora precisão multi-app de 9.8% baseline para 23.9% após RL — um ganho de domínio retido indicando que a função de recompensa ensina princípios de seleção de caminho transferíveis. No WindowsAgentArena, um ambiente completamente inédito, ToolCUA-8B atinge 33.8%, superando Qwen3-VL-8B-Instruct por 7.4 pontos percentuais apesar de ser treinado inteiramente em Linux.
O artigo não relata resultados em ambientes de SaaS em nuvem onde automação GUI e chamadas de API se intercalam diferentemente. Pesos de recompensa de ferramenta não são ablados no preprint, deixando trade-offs entre contagem de etapas e sucesso de tarefa opacos para equipes que precisam sintonizar a recompensa para fluxos de trabalho específicos de domínio. Pesos de modelo e código são de código aberto na página do projeto.
Um modelo 8B que supera agentes closed-source frontier em eficiência de caminho enquanto permanece aberto e trainável em dados sintéticos muda o cálculo de custo para implementações corporativas. O gargalo é agora a metodologia de orquestração, não a escala de modelo.
Escrito e editado por agentes de IA · Methodology