WildClawBench: Claude Opus Alcanza 62% en Evaluación de Agentes en Mundo Real

Investigadores del Shanghai AI Laboratory publican WildClawBench, un benchmark de 60 tareas que evalúa grandes modelos de lenguaje y modelos de visión y lenguaje en runtimes reales de agentes CLI, en lugar de sandboxes sintéticas. Claude Opus 4.7 alcanza 62,2%, el más alto entre 19 modelos de frontera evaluados; todos los demás modelos obtienen puntuaciones por debajo del 60%.

WildClawBench contiene 60 tareas bilingües en seis categorías: flujo de productividad, inteligencia de código, interacción social, búsqueda y recuperación, síntesis creativa y alineamiento de seguridad. Veintiséis tareas son multimodales. Cada tarea se ejecuta dentro de un contenedor Docker con uno de cuatro harnesses reales de agentes CLI — OpenClaw, Claude Code, Codex o Hermes Agent — con acceso a shells en vivo, navegadores web, sistemas de archivos y clientes de correo. Las ventanas de ejecución de tareas varían de 300 a 1.200 segundos, con un promedio de aproximadamente 8 minutos. La calificación utiliza comprobaciones determinísticas basadas en reglas sobre artefactos, auditoría de estado del entorno de efectos secundarios y juicio de LLM/VLM para verificación semántica.

El desempeño abarca un rango de 43 puntos, de 19,3% a 62,2% de Claude Opus 4.7, haciendo que la selección de modelo sea una variable material. Las tareas multimodales consistentemente tienen un desempeño inferior al de las tareas solo de texto dentro del mismo modelo. GPT 5.4 alcanza 40,2% en multimodal versus 58,0% solo texto; Claude Opus 4.7 alcanza 58,5% versus 65,0%. Esta brecha significa que los agentes que manejan documentos, capturas de pantalla o medios mixtos enfrentan un riesgo de fallo significativamente mayor que los despliegues solo de chat.

La selección de harness afecta el desempeño tanto como la selección de modelo. Ejecutar el mismo modelo bajo diferentes harnesses CLI — por ejemplo, MiMo V2 Pro bajo Claude Code versus Hermes Agent — produce variaciones de puntuación de hasta 18 puntos porcentuales. Esta magnitud coincide con la brecha entre los modelos propietarios más altos y más bajos en el conjunto de pruebas. Para organizaciones evaluando frameworks de agentes, la capa de orquestación es una variable de desempeño primaria.

El conjunto de pruebas incluye seis modelos propietarios (Claude Opus 4.7, GPT 5.5) y trece modelos de código abierto (DeepSeek V4 Pro 1.6T, Qwen 3.5 397B). Todos los modelos se acceden a través de un endpoint unificado de OpenRouter. Los esquemas de herramientas, prompts del sistema y activos de calificación permanecen constantes dentro de cada harness para aislar el comportamiento del modelo de la varianza de infraestructura.

Los benchmarks de agentes existentes miden la corrección de respuesta final sin auditar la trayectoria de ejecución. Un modelo puede producir una salida correcta mientras corrompe el estado del sistema de archivos, configura incorrectamente servicios o elude restricciones de seguridad. La auditoría de estado del entorno de WildClawBench expone efectos secundarios que la calificación de respuesta final pierde — crítico cuando los agentes tienen acceso de escritura a sistemas de producción.

Todas las tareas, código y herramientas containerizadas se publican públicamente. Con el modelo líder fallando en más de una de cada tres tareas en runtimes nativos, el benchmark establece una barrera medible para el despliegue en producción.

Sources

WildClawBench is a 60-task benchmark running inside actual CLI agent runtimes (OpenClaw, Claude Code, Codex, Hermes Agent) with real tools rather than mock services
"Each task runs inside a safe, stable, and reproducible Docker container that hosts the actual CLI agent harness used in deployment (OpenClaw, Claude Code, Codex, or Hermes Agent), with access to real tools such as shells, web browsers, file systems, email clients, and extensible skills, rather than mock-service APIs."
arxiv.org ↗
The benchmark spans six categories: productivity flow, code intelligence, social interaction, search and retrieval, creative synthesis, and safety alignment, with 26 natively multimodal tasks
"The suite contains 60 human-authored, bilingual tasks across six categories (Fig. 1 (c)): productivity flow, code intelligence, social interaction, search and retrieval, creative synthesis, and safety alignment, including 26 natively multimodal tasks."
arxiv.org ↗
Each task averages roughly 8 minutes of wall-clock time and over 20 tool calls, with budgets of 300 to 1,200 seconds
"these tasks are evaluated under budgets of 300 to 1200 seconds and, in practice, require roughly 8 minutes of wall-clock time and over 20 tool calls per run"
arxiv.org ↗
Grading is hybrid: deterministic rule-based checks, environment-state auditing of side effects, and an LLM/VLM judge for semantic verification
"Grading is hybrid: deterministic rule-based checks on produced artifacts, environment-state auditing of side effects, and an LLM/VLM judge invoked only for semantic checks that rule-based signals cannot resolve."
arxiv.org ↗
Across 19 frontier models, Claude Opus 4.7 reaches 62.2% overall under OpenClaw while every other model stays below 60%; scores span a 43-point range from 19.3% to 62.2%
"the strongest model, Claude Opus 4.7, reaches 62.2% overall while every other model stays below 60%, and scores span a 43-point range from 19.3% to 62.2%."
arxiv.org ↗
GPT 5.4 scores 40.2% on multimodal tasks versus 58.0% on text-only; Claude Opus 4.7 scores 58.5% versus 65.0% on multimodal versus text tasks
"multimodal workflows trail pure-text ones (e.g., GPT 5.4: 40.2% vs. 58.0%; Claude Opus 4.7: 58.5% vs. 65.0%)"
arxiv.org ↗
Switching harness alone shifts a single model by up to 18 points (e.g., MiMo V2 Pro, Claude Code vs. Hermes Agent)
"switching harness alone can shift a model by up to 18 points (e.g., MiMo V2 Pro, Claude Code vs. Hermes Agent)"
arxiv.org ↗
Tested models include 6 proprietary (Claude Opus 4.7, GPT 5.5) and 13 open-source (DeepSeek V4 Pro 1.6T, Qwen 3.5 397B)
"Across 19 frontier models, including 6 proprietary (e.g., Claude Opus 4.7 [4], GPT 5.5 [29]) and 13 open-source ones (e.g., DeepSeek V4 Pro 1.6T [10], Qwen 3.5 397B [32])"
arxiv.org ↗
All models accessed through unified OpenRouter endpoint; grading assets introduced only after agent process exits to prevent leakage
"all models are accessed through a unified OpenRouter endpoint, tool schemas and system prompts are held constant within each harness, and grading-only assets enter the container only after the agent process exits, preventing leakage during execution."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

WildClawBench: Claude Opus Alcanza 62% en Evaluación de Agentes en Mundo Real

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.