Benchmark Claw-Anything Establece un Límite de 34,5% para Agentes Always-On

La mayoría de los benchmarks de agentes proporcionan a los modelos stubs de API limpios, HTML estático o árboles de archivos en sandbox. Claw-Anything, lanzado el 25 de mayo por Huawei Technologies, Beijing Institute of Technology y Peking University, invierte ese diseño. El benchmark proporciona a los agentes el mismo contexto digital expansivo que un usuario real genera a lo largo de meses—emails, eventos de calendario, actividad de archivos entre dispositivos, llamadas de servicio backend—y les pide que resuelvan una tarea real. GPT-5.5, el modelo cerrado más fuerte probado, logró 34,5% pass@1. Los agentes actuales no cumplen con los requisitos de asistente personal always-on.

El benchmark abarca tres ejes: flujos de eventos de horizonte largo que requieren inferencia en contexto en evolución; servicios backend interdependientes entre email, calendario, almacenamiento y apps; e interfaces heterogéneas que abarcan GUI y CLI. Los agentes deben integrar información distribuida y actuar entre límites de dispositivos.

El equipo construyó un pipeline automatizado de generación de datos que inyecta eventos de múltiples rondas en el historial de usuario simulado, introduciendo deliberadamente ruido—eventos irrelevantes, señales conflictivas—replicando la densidad de información de producción. El pipeline genera 2.000 entornos de entrenamiento distintos. El ajuste fino de un modelo base en esos datos mejora pass@1 en 23,7% y lo clasifica entre los mejores modelos de peso abierto en la tabla de clasificación Claw-Anything.

Claw-Anything evalúa asistencia proactiva: los agentes deben anticipar las necesidades del usuario y proporcionar recomendaciones. Los despliegues reales—OpenClaw, Hermes Agent—apuntan a este escenario. Cada modelo probado tuvo el peor desempeño en este eje. El límite de 34,5% sugiere que las tareas proactivas degradan sustancialmente las puntuaciones generales.

La ganancia de entrenamiento de 23,7% merece escrutinio. Proviene del ajuste fino de un modelo base único en los entornos sintéticos de Claw-Anything y no garantiza el mismo aumento en un arnés de estilo OpenClaw. Lo que valida: el pipeline de generación de datos como infraestructura. 2.000 entornos fundamentados, inyectados con ruido, con estados ground-truth conocidos forman un corpus significativo para instruction-tuning. El equipo lanza ambos bajo la organización GitHub LiberCoders.

Para arquitectos que evalúan agentes para despliegues always-on, la contribución metodológica se corresponde con las puntuaciones. Los benchmarks existentes exponen sectores estrechos y estáticos del estado del usuario y omiten actividad de horizonte largo, dependencias entre servicios e interacción entre múltiples dispositivos. Claw-Anything es el primer benchmark en el ecosistema OpenClaw que modela la riqueza de contexto como variable independiente, variando volumen e interdependencia en lugar de dificultad de la tarea. Responde a la pregunta que los profesionales hacen: no "¿puede este modelo llamar a una herramienta?" sino "¿el desempeño se degrada gracefully conforme crece el contexto?"

¿Dimensionando ventanas de contexto, diseñando pipelines de recuperación o eligiendo un modelo base para despliegue de agente ambiental? El límite de 34,5% de Claw-Anything e inyección de ruido estructurado proporcionan una prueba de estrés más honesta que las alternativas. El benchmark, entornos de entrenamiento y pipeline de datos están disponibles en github.com/LiberCoders/Claw-Anything y en Hugging Face en LiberCoders/Claw-Anything.

Sources

GPT-5.5 achieves only 34.5% pass@1 on Claw-Anything, substantially below prior benchmarks
"Experiments show that GPT-5.5 achieves only 34.5% pass@1, substantially below prior benchmarks, underscoring a gap between current agent capabilities and the demands of always-on personal assistance."
arxiv.org ↗
The automated data-generation pipeline yields 2,000 training environments and improves the base model by 23.7%
"we release an automated data-generation pipeline that yields 2,000 training environments and improves the base model by 23.7%, demonstrating its utility of scalable data infrastructure."
arxiv.org ↗
Claw-Anything expands agent context along three dimensions: long-horizon activity histories, interdependent backend services, and integrated GUI and CLI interaction across multiple devices
"Claw-Anything expands agent context along three dimensions: i) long-horizon event streams that connect past and present through months of fine-grained activity records; ii) diverse, interdependent backend services spanning the principal digital spaces users inhabit; and iii) multiple devices with heterogeneous interfaces, including both GUI and CLI interaction."
arxiv.org ↗
The benchmark simulates months of user activity through multi-round event injection, producing complex world states and realistic noise
"we simulate months of user activity through multi-round event injection, producing complex world states and realistic noise, including irrelevant events and conflicting signals."
arxiv.org ↗
Claw-Anything includes evaluation of proactive assistance, requiring agents to anticipate user needs and deliver timely recommendations
"This expanded scope also enables the evaluation of proactive assistance, requiring agents to anticipate user needs and deliver timely recommendations."
arxiv.org ↗
The benchmark and data pipeline are released at github.com/LiberCoders/Claw-Anything
"Code: github.com/LiberCoders/Claw-Anything Dataset: LiberCoders/Claw-Anything"
arxiv.org ↗
Existing benchmarks expose only narrow, static slices of user state, omitting long-horizon activity, cross-service dependencies, and interaction across devices
"Existing benchmarks [31, 4, 11, 5, 21] typically expose only narrow, static slices of user state, omitting long-horizon activity, cross-service dependencies, and interaction across devices."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Benchmark Claw-Anything Establece un Límite de 34,5% para Agentes Always-On

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.