Agentes Autorreparables Elevan Puntuación de Benchmark a 0.61

Un equipo de investigadores de HKUST y USTC ha publicado MOSS, un sistema que permite que un agente autónomo reescriba su propio código-fuente en producción — lógica de enrutamiento, ordenamiento de hooks, dispatch, invariantes de máquina de estados — y demostró una mejora de puntuación de grader promedio de 0.25 a 0.61 en un conjunto de benchmark OpenClaw de cuatro tareas en un único ciclo de auto-modificación, sin intervención humana.

Cada sistema existente de agente auto-evolucionario — Hermes Agent, SkillClaw, GenericAgent, EvoAgentX — confina la evolución a artefactos mutables de texto: archivos de skill, configuraciones de prompt, esquemas de memoria, grafos de workflow. MOSS es el primero en también dirigirse al harness del agente. El argumento central es que las ediciones a nivel de texto no pueden corregir fallos estructurales: mensajes mal enrutados, hooks disparándose fuera de orden, estado de sesión corrupto, bugs de atomicidad a través de skills concurrentes. Estos fallos originan en el harness, no en el prompt. A medida que la complejidad del sistema escala, la brecha entre lo que la evolución mutable de texto puede corregir y lo que realmente se rompe en producción se amplía.

El pipeline de MOSS se ejecuta en cuatro etapas. Primero, evidencia de fallos en producción se curadora automáticamente en un lote de replay. Segundo, un pipeline multi-etapa determinístico genera modificaciones de harness candidatas delegando escritura de código a una CLI de coding-agent conectable. Tercero, los candidatos se verifican reexecutando el lote de fallos contra la imagen modificada dentro de workers de ensayo efímeros. Finalmente, un candidato aprobado se promueve vía intercambio de contenedor in-place con consentimiento del usuario, con rollback controlado por sonda de salud como válvula de escape si el sistema vivo retrocede post-intercambio.

Las elecciones de diseño clave de la arquitectura conllevan compromisos deliberados. Las ediciones a nivel de código fuente surtirán efecto de manera determinística: la lógica de enrutamiento se ejecuta como código, no como un prompt que el modelo base debe releer y cumplir. Esto elimina la dependencia de cumplimiento que socava los arreglos mutables de texto. También significa que las ediciones no se deterioran bajo deriva de contexto largo, un modo de fallo real para agentes acumulando semanas de parches a nivel de prompt.

En el lado cuantitativo, MOSS eleva la puntuación de grader promedio de cuatro tareas en OpenClaw de 0.25 a 0.61 en un único ciclo de evolución. Esta es la única métrica operacional divulgada. No se reportaron latencia, throughput de tokens, costo-por-evolución o GPU-horas consumidas. Los workers de ensayo efímeros implican costo de infraestructura por ciclo, pero no se dan cifras. La CLI de coding-agent es conectable pero no se nombra ninguna CLI benchmarked, así que el costo del paso de generación de código tampoco está caracterizado. Este es un artículo de investigación sin evidencia de despliegue en producción; los equipos que evalúan MOSS para adopción necesitan instrumentar tanto el costo de replay del worker de ensayo como el tiempo total de pared de evolución end-to-end antes de cualquier dimensionamiento en producción.

Las preguntas abiertas son la superficie de mutación y las restricciones de seguridad. La puerta de consentimiento del usuario y el rollback controlado por sonda de salud son los únicos mecanismos de seguridad descritos. El artículo no especifica qué restricciones rigen qué archivos o módulos el agente puede modificar, si la CLI de coding-agent opera en un contexto aislado, o cómo el sistema maneja un candidato que pasa en replay pero introduce una regresión de corrección latente fuera del lote curador. La inyección de prompt a través del corpus de evidencia de fallos también es una superficie de ataque no abordada: un rastreo de fallo elaborado podría dirigir el código del harness hacia una modificación controlada por atacante. La literatura de seguridad en agentes estilo OpenClaw documenta que los runtimes de agentes existentes fallan bajo supuestos de ataque realistas incluso sin auto-modificación; MOSS amplía esa superficie.

Conclusión del arquitecto: si sus agentes auto-sanadores solo retochan prompts y skills, está ignorando toda la clase de bugs estructurales a nivel de harness que crecen con la complejidad del sistema. MOSS le ofrece el modelo de amenaza y un patrón de pipeline concreto, pero antes de adoptarlo necesita una superficie de mutación definida y un corpus de replay más amplio que el que demuestra el artículo.

Sources

MOSS lifts a four-task mean grader score from 0.25 to 0.61 in a single cycle without human intervention on OpenClaw
"On OpenClaw, MOSS lifts a four-task mean grader score from 0.25 to 0.61 in a single cycle without human intervention."
arxiv.org ↗
All prior self-evolving agent systems confine evolution to text-mutable artifacts and leave the agent harness untouched
"their evolution scope is bounded to text-mutable artifacts—skill files, prompt configurations, memory schemas, and at most workflow graphs; the agent harness—routing, state management, dispatch, hooks, mediator, session lifecycle—is never modified by the agent itself."
arxiv.org ↗
Harness-layer failures such as mis-routed messages, hooks firing out of order, corrupted session state cannot be reached by text-layer edits
"Once a failure originates in this layer—mis-routed messages, hooks firing out of order, corrupted session state, atomicity bugs across concurrent skills—no update to skills, prompts, or memory can reach it: the bug is not in the prompt text, and a prompt rewrite cannot paper over it."
arxiv.org ↗
Code modification in MOSS is delegated to a pluggable external coding-agent CLI while MOSS retains stage ordering and verdicts
"code modification is delegated to a pluggable external coding-agent CLI while MOSS retains stage ordering and verdicts."
arxiv.org ↗
Candidates are verified by replaying the failure batch against the candidate image in ephemeral trial workers, then promoted via user-consent-gated in-place container swap with health-probe-gated rollback
"Candidates are verified by replaying the batch against the candidate image in ephemeral trial workers, then promoted via user-consent-gated, in-place container swap with health-probe-gated rollback."
arxiv.org ↗
Source-level edits take effect deterministically and do not erode under long-context drift, unlike text-mutable fixes
"edits at the source layer are encoded as behavior, not text to be re-read, and so do not degrade as the system ages."
arxiv.org ↗
Source-level adaptation is a strict superset of every text-mutable scope; whatever a prompt edit can achieve, an equivalent code edit can also achieve
"It is a strict superset of every text-mutable scope: whatever a prompt edit can achieve, an equivalent code edit can also achieve, and not the other way around."
arxiv.org ↗
Each MOSS evolution is anchored to an automatically curated batch of production-failure evidence and proceeds through a deterministic multi-stage pipeline
"Each evolution is anchored to an automatically curated batch of production-failure evidence and proceeds through a deterministic multi-stage pipeline"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Agentes Autorreparables Elevan Puntuación de Benchmark a 0.61

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.