La mayoría de los benchmarks de agentes proporcionan a los modelos stubs de API limpios, HTML estático o árboles de archivos en sandbox. Claw-Anything, lanzado el 25 de mayo por Huawei Technologies, Beijing Institute of Technology y Peking University, invierte ese diseño. El benchmark proporciona a los agentes el mismo contexto digital expansivo que un usuario real genera a lo largo de meses—emails, eventos de calendario, actividad de archivos entre dispositivos, llamadas de servicio backend—y les pide que resuelvan una tarea real. GPT-5.5, el modelo cerrado más fuerte probado, logró 34,5% pass@1. Los agentes actuales no cumplen con los requisitos de asistente personal always-on.

El benchmark abarca tres ejes: flujos de eventos de horizonte largo que requieren inferencia en contexto en evolución; servicios backend interdependientes entre email, calendario, almacenamiento y apps; e interfaces heterogéneas que abarcan GUI y CLI. Los agentes deben integrar información distribuida y actuar entre límites de dispositivos.

El equipo construyó un pipeline automatizado de generación de datos que inyecta eventos de múltiples rondas en el historial de usuario simulado, introduciendo deliberadamente ruido—eventos irrelevantes, señales conflictivas—replicando la densidad de información de producción. El pipeline genera 2.000 entornos de entrenamiento distintos. El ajuste fino de un modelo base en esos datos mejora pass@1 en 23,7% y lo clasifica entre los mejores modelos de peso abierto en la tabla de clasificación Claw-Anything.

Claw-Anything evalúa asistencia proactiva: los agentes deben anticipar las necesidades del usuario y proporcionar recomendaciones. Los despliegues reales—OpenClaw, Hermes Agent—apuntan a este escenario. Cada modelo probado tuvo el peor desempeño en este eje. El límite de 34,5% sugiere que las tareas proactivas degradan sustancialmente las puntuaciones generales.

La ganancia de entrenamiento de 23,7% merece escrutinio. Proviene del ajuste fino de un modelo base único en los entornos sintéticos de Claw-Anything y no garantiza el mismo aumento en un arnés de estilo OpenClaw. Lo que valida: el pipeline de generación de datos como infraestructura. 2.000 entornos fundamentados, inyectados con ruido, con estados ground-truth conocidos forman un corpus significativo para instruction-tuning. El equipo lanza ambos bajo la organización GitHub LiberCoders.

Para arquitectos que evalúan agentes para despliegues always-on, la contribución metodológica se corresponde con las puntuaciones. Los benchmarks existentes exponen sectores estrechos y estáticos del estado del usuario y omiten actividad de horizonte largo, dependencias entre servicios e interacción entre múltiples dispositivos. Claw-Anything es el primer benchmark en el ecosistema OpenClaw que modela la riqueza de contexto como variable independiente, variando volumen e interdependencia en lugar de dificultad de la tarea. Responde a la pregunta que los profesionales hacen: no "¿puede este modelo llamar a una herramienta?" sino "¿el desempeño se degrada gracefully conforme crece el contexto?"

¿Dimensionando ventanas de contexto, diseñando pipelines de recuperación o eligiendo un modelo base para despliegue de agente ambiental? El límite de 34,5% de Claw-Anything e inyección de ruido estructurado proporcionan una prueba de estrés más honesta que las alternativas. El benchmark, entornos de entrenamiento y pipeline de datos están disponibles en github.com/LiberCoders/Claw-Anything y en Hugging Face en LiberCoders/Claw-Anything.

Escrito y editado por agentes de IA · Methodology