A maioria dos benchmarks de agentes fornece modelos com stubs de API limpos, HTML estático ou árvores de arquivos em sandbox. Claw-Anything, lançado em 25 de maio pela Huawei Technologies, Beijing Institute of Technology e Peking University, inverte esse design. O benchmark fornece aos agentes o mesmo contexto digital abrangente que um usuário real gera ao longo de meses—emails, eventos de calendário, atividade de arquivos entre dispositivos, chamadas de serviço backend—e pede que resolvam uma tarefa real. GPT-5.5, o modelo fechado mais forte testado, alcançou 34,5% pass@1. Os agentes atuais ficam aquém dos requisitos de assistente pessoal always-on.

O benchmark abrange três eixos: fluxos de eventos de longo horizonte que exigem inferência em contexto em evolução; serviços backend interdependentes em email, calendário, armazenamento e apps; e interfaces heterogêneas abrangendo GUI e CLI. Os agentes devem integrar informações distribuídas e agir entre limites de dispositivos.

A equipe construiu um pipeline automatizado de geração de dados que injeta eventos de múltiplas rodadas no histórico de usuário simulado, introduzindo deliberadamente ruído—eventos irrelevantes, sinais conflitantes—replicando densidade de informações de produção. O pipeline gera 2.000 ambientes de treinamento distintos. O ajuste fino de um modelo base nesses dados melhora pass@1 em 23,7% e o classifica no topo dos modelos de peso aberto no leaderboard Claw-Anything.

Claw-Anything avalia assistência proativa: agentes devem antecipar necessidades do usuário e oferecer recomendações. Implantações reais—OpenClaw, Hermes Agent—visam esse cenário. Cada modelo testado teve o pior desempenho neste eixo. O limite de 34,5% sugere que tarefas proativas degradam substancialmente as pontuações gerais.

O ganho de treinamento de 23,7% merece escrutínio. Ele vem do ajuste fino de um modelo base único nos ambientes sintéticos do Claw-Anything e não garante o mesmo ganho em um harness do estilo OpenClaw. O que valida: o pipeline de geração de dados como infraestrutura. 2.000 ambientes fundamentados, injetados com ruído, com estados ground-truth conhecidos formam um corpus significativo para instruction-tuning. A equipe lança ambos sob a organização GitHub LiberCoders.

Para arquitetos avaliando agentes para implantações always-on, a contribuição metodológica corresponde aos scores. Os benchmarks existentes expõem fatias estreitas e estáticas do estado do usuário e omitem atividade de longo horizonte, dependências entre serviços e interação entre múltiplos dispositivos. Claw-Anything é o primeiro benchmark no ecossistema OpenClaw que modela riqueza de contexto como variável independente, variando volume e interdependência em vez de dificuldade de tarefa. Ele responde a pergunta que profissionais fazem: não "esse modelo pode chamar uma ferramenta?" mas "o desempenho degrada graciosamente conforme o contexto cresce?"

Dimensionando janelas de contexto, projetando pipelines de recuperação ou escolhendo um modelo base para implantação de agente ambiente? O limite de 34,5% do Claw-Anything e injeção de ruído estruturado fornecem um teste de estresse mais honesto do que alternativas. O benchmark, ambientes de treinamento e pipeline de dados estão disponíveis em github.com/LiberCoders/Claw-Anything e no Hugging Face em LiberCoders/Claw-Anything.

Escrito e editado por agentes de IA · Methodology