WildClawBench: Claude Opus Atinge 62% em Avaliação de Agent em Ambiente Real

Pesquisadores do Shanghai AI Laboratory divulgaram WildClawBench, um benchmark com 60 tarefas que avalia grandes modelos de linguagem e modelos de visão e linguagem em runtimes de agentes CLI reais, em vez de sandboxes sintéticos. Claude Opus 4.7 alcança 62,2%, o maior entre 19 modelos de ponta testados; todos os outros modelos ficam abaixo de 60%.

WildClawBench contém 60 tarefas bilíngues em seis categorias: fluxo de produtividade, inteligência de código, interação social, busca e recuperação, síntese criativa e alinhamento de segurança. Vinte e seis tarefas são multimodais. Cada tarefa é executada dentro de um container Docker com um de quatro harnesses reais de agentes CLI — OpenClaw, Claude Code, Codex ou Hermes Agent — com acesso a shells ao vivo, navegadores web, sistemas de arquivos e clientes de email. Janelas de execução de tarefas variam de 300 a 1.200 segundos, com média de aproximadamente 8 minutos. A avaliação usa verificações determinísticas baseadas em regras em artefatos, auditoria de estado de ambiente de efeitos colaterais e julgamento de LLM/VLM para verificação semântica.

O desempenho abrange uma faixa de 43 pontos, de 19,3% a 62,2% do Claude Opus 4.7, tornando a seleção de modelo uma variável material. Tarefas multimodais consistentemente têm desempenho pior que tarefas apenas de texto dentro do mesmo modelo. GPT 5.4 alcança 40,2% em multimodal versus 58,0% apenas em texto; Claude Opus 4.7 alcança 58,5% versus 65,0%. Essa diferença significa que agentes que lidam com documentos, screenshots ou mídia mista enfrentam risco de falha significativamente maior que deployments apenas de chat.

A escolha de harness afeta o desempenho tanto quanto a seleção de modelo. Executar o mesmo modelo sob diferentes harnesses CLI — por exemplo, MiMo V2 Pro sob Claude Code versus Hermes Agent — produz variações de score de até 18 pontos percentuais. Essa magnitude corresponde à diferença entre os modelos proprietários mais altos e mais baixos no conjunto de testes. Para organizações avaliando frameworks de agentes, a camada de orquestração é uma variável de desempenho primária.

O conjunto de testes inclui seis modelos proprietários (Claude Opus 4.7, GPT 5.5) e treze modelos de código aberto (DeepSeek V4 Pro 1.6T, Qwen 3.5 397B). Todos os modelos são acessados por um endpoint OpenRouter unificado. Esquemas de ferramentas, prompts do sistema e ativos de avaliação permanecem constantes dentro de cada harness para isolar o comportamento do modelo da variância de infraestrutura.

Benchmarks de agentes existentes medem correção de resposta final sem auditar trajetória de execução. Um modelo pode produzir saída correta enquanto corrompe o estado do sistema de arquivos, misconfigura serviços ou contorna restrições de segurança. A auditoria de estado de ambiente do WildClawBench revela efeitos colaterais que a avaliação de resposta final perde — crítico quando agentes têm acesso de escrita a sistemas de produção.

Todas as tarefas, código e tooling containerizado são divulgados publicamente. Com o modelo líder falhando em mais de uma em cada três tarefas em runtimes nativos, o benchmark estabelece uma barreira mensurável para deployment em produção.

Sources

WildClawBench is a 60-task benchmark running inside actual CLI agent runtimes (OpenClaw, Claude Code, Codex, Hermes Agent) with real tools rather than mock services
"Each task runs inside a safe, stable, and reproducible Docker container that hosts the actual CLI agent harness used in deployment (OpenClaw, Claude Code, Codex, or Hermes Agent), with access to real tools such as shells, web browsers, file systems, email clients, and extensible skills, rather than mock-service APIs."
arxiv.org ↗
The benchmark spans six categories: productivity flow, code intelligence, social interaction, search and retrieval, creative synthesis, and safety alignment, with 26 natively multimodal tasks
"The suite contains 60 human-authored, bilingual tasks across six categories (Fig. 1 (c)): productivity flow, code intelligence, social interaction, search and retrieval, creative synthesis, and safety alignment, including 26 natively multimodal tasks."
arxiv.org ↗
Each task averages roughly 8 minutes of wall-clock time and over 20 tool calls, with budgets of 300 to 1,200 seconds
"these tasks are evaluated under budgets of 300 to 1200 seconds and, in practice, require roughly 8 minutes of wall-clock time and over 20 tool calls per run"
arxiv.org ↗
Grading is hybrid: deterministic rule-based checks, environment-state auditing of side effects, and an LLM/VLM judge for semantic verification
"Grading is hybrid: deterministic rule-based checks on produced artifacts, environment-state auditing of side effects, and an LLM/VLM judge invoked only for semantic checks that rule-based signals cannot resolve."
arxiv.org ↗
Across 19 frontier models, Claude Opus 4.7 reaches 62.2% overall under OpenClaw while every other model stays below 60%; scores span a 43-point range from 19.3% to 62.2%
"the strongest model, Claude Opus 4.7, reaches 62.2% overall while every other model stays below 60%, and scores span a 43-point range from 19.3% to 62.2%."
arxiv.org ↗
GPT 5.4 scores 40.2% on multimodal tasks versus 58.0% on text-only; Claude Opus 4.7 scores 58.5% versus 65.0% on multimodal versus text tasks
"multimodal workflows trail pure-text ones (e.g., GPT 5.4: 40.2% vs. 58.0%; Claude Opus 4.7: 58.5% vs. 65.0%)"
arxiv.org ↗
Switching harness alone shifts a single model by up to 18 points (e.g., MiMo V2 Pro, Claude Code vs. Hermes Agent)
"switching harness alone can shift a model by up to 18 points (e.g., MiMo V2 Pro, Claude Code vs. Hermes Agent)"
arxiv.org ↗
Tested models include 6 proprietary (Claude Opus 4.7, GPT 5.5) and 13 open-source (DeepSeek V4 Pro 1.6T, Qwen 3.5 397B)
"Across 19 frontier models, including 6 proprietary (e.g., Claude Opus 4.7 [4], GPT 5.5 [29]) and 13 open-source ones (e.g., DeepSeek V4 Pro 1.6T [10], Qwen 3.5 397B [32])"
arxiv.org ↗
All models accessed through unified OpenRouter endpoint; grading assets introduced only after agent process exits to prevent leakage
"all models are accessed through a unified OpenRouter endpoint, tool schemas and system prompts are held constant within each harness, and grading-only assets enter the container only after the agent process exits, preventing leakage during execution."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

WildClawBench: Claude Opus Atinge 62% em Avaliação de Agent em Ambiente Real

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.