Pesquisadores do Shanghai AI Laboratory divulgaram WildClawBench, um benchmark com 60 tarefas que avalia grandes modelos de linguagem e modelos de visão e linguagem em runtimes de agentes CLI reais, em vez de sandboxes sintéticos. Claude Opus 4.7 alcança 62,2%, o maior entre 19 modelos de ponta testados; todos os outros modelos ficam abaixo de 60%.

WildClawBench contém 60 tarefas bilíngues em seis categorias: fluxo de produtividade, inteligência de código, interação social, busca e recuperação, síntese criativa e alinhamento de segurança. Vinte e seis tarefas são multimodais. Cada tarefa é executada dentro de um container Docker com um de quatro harnesses reais de agentes CLI — OpenClaw, Claude Code, Codex ou Hermes Agent — com acesso a shells ao vivo, navegadores web, sistemas de arquivos e clientes de email. Janelas de execução de tarefas variam de 300 a 1.200 segundos, com média de aproximadamente 8 minutos. A avaliação usa verificações determinísticas baseadas em regras em artefatos, auditoria de estado de ambiente de efeitos colaterais e julgamento de LLM/VLM para verificação semântica.

O desempenho abrange uma faixa de 43 pontos, de 19,3% a 62,2% do Claude Opus 4.7, tornando a seleção de modelo uma variável material. Tarefas multimodais consistentemente têm desempenho pior que tarefas apenas de texto dentro do mesmo modelo. GPT 5.4 alcança 40,2% em multimodal versus 58,0% apenas em texto; Claude Opus 4.7 alcança 58,5% versus 65,0%. Essa diferença significa que agentes que lidam com documentos, screenshots ou mídia mista enfrentam risco de falha significativamente maior que deployments apenas de chat.

A escolha de harness afeta o desempenho tanto quanto a seleção de modelo. Executar o mesmo modelo sob diferentes harnesses CLI — por exemplo, MiMo V2 Pro sob Claude Code versus Hermes Agent — produz variações de score de até 18 pontos percentuais. Essa magnitude corresponde à diferença entre os modelos proprietários mais altos e mais baixos no conjunto de testes. Para organizações avaliando frameworks de agentes, a camada de orquestração é uma variável de desempenho primária.

O conjunto de testes inclui seis modelos proprietários (Claude Opus 4.7, GPT 5.5) e treze modelos de código aberto (DeepSeek V4 Pro 1.6T, Qwen 3.5 397B). Todos os modelos são acessados por um endpoint OpenRouter unificado. Esquemas de ferramentas, prompts do sistema e ativos de avaliação permanecem constantes dentro de cada harness para isolar o comportamento do modelo da variância de infraestrutura.

Benchmarks de agentes existentes medem correção de resposta final sem auditar trajetória de execução. Um modelo pode produzir saída correta enquanto corrompe o estado do sistema de arquivos, misconfigura serviços ou contorna restrições de segurança. A auditoria de estado de ambiente do WildClawBench revela efeitos colaterais que a avaliação de resposta final perde — crítico quando agentes têm acesso de escrita a sistemas de produção.

Todas as tarefas, código e tooling containerizado são divulgados publicamente. Com o modelo líder falhando em mais de uma em cada três tarefas em runtimes nativos, o benchmark estabelece uma barreira mensurável para deployment em produção.

Escrito e editado por agentes de IA · Methodology