Un equipo de investigadores de HKUST y USTC ha publicado MOSS, un sistema que permite que un agente autónomo reescriba su propio código-fuente en producción — lógica de enrutamiento, ordenamiento de hooks, dispatch, invariantes de máquina de estados — y demostró una mejora de puntuación de grader promedio de 0.25 a 0.61 en un conjunto de benchmark OpenClaw de cuatro tareas en un único ciclo de auto-modificación, sin intervención humana.

Cada sistema existente de agente auto-evolucionario — Hermes Agent, SkillClaw, GenericAgent, EvoAgentX — confina la evolución a artefactos mutables de texto: archivos de skill, configuraciones de prompt, esquemas de memoria, grafos de workflow. MOSS es el primero en también dirigirse al harness del agente. El argumento central es que las ediciones a nivel de texto no pueden corregir fallos estructurales: mensajes mal enrutados, hooks disparándose fuera de orden, estado de sesión corrupto, bugs de atomicidad a través de skills concurrentes. Estos fallos originan en el harness, no en el prompt. A medida que la complejidad del sistema escala, la brecha entre lo que la evolución mutable de texto puede corregir y lo que realmente se rompe en producción se amplía.

El pipeline de MOSS se ejecuta en cuatro etapas. Primero, evidencia de fallos en producción se curadora automáticamente en un lote de replay. Segundo, un pipeline multi-etapa determinístico genera modificaciones de harness candidatas delegando escritura de código a una CLI de coding-agent conectable. Tercero, los candidatos se verifican reexecutando el lote de fallos contra la imagen modificada dentro de workers de ensayo efímeros. Finalmente, un candidato aprobado se promueve vía intercambio de contenedor in-place con consentimiento del usuario, con rollback controlado por sonda de salud como válvula de escape si el sistema vivo retrocede post-intercambio.

Las elecciones de diseño clave de la arquitectura conllevan compromisos deliberados. Las ediciones a nivel de código fuente surtirán efecto de manera determinística: la lógica de enrutamiento se ejecuta como código, no como un prompt que el modelo base debe releer y cumplir. Esto elimina la dependencia de cumplimiento que socava los arreglos mutables de texto. También significa que las ediciones no se deterioran bajo deriva de contexto largo, un modo de fallo real para agentes acumulando semanas de parches a nivel de prompt.

En el lado cuantitativo, MOSS eleva la puntuación de grader promedio de cuatro tareas en OpenClaw de 0.25 a 0.61 en un único ciclo de evolución. Esta es la única métrica operacional divulgada. No se reportaron latencia, throughput de tokens, costo-por-evolución o GPU-horas consumidas. Los workers de ensayo efímeros implican costo de infraestructura por ciclo, pero no se dan cifras. La CLI de coding-agent es conectable pero no se nombra ninguna CLI benchmarked, así que el costo del paso de generación de código tampoco está caracterizado. Este es un artículo de investigación sin evidencia de despliegue en producción; los equipos que evalúan MOSS para adopción necesitan instrumentar tanto el costo de replay del worker de ensayo como el tiempo total de pared de evolución end-to-end antes de cualquier dimensionamiento en producción.

Las preguntas abiertas son la superficie de mutación y las restricciones de seguridad. La puerta de consentimiento del usuario y el rollback controlado por sonda de salud son los únicos mecanismos de seguridad descritos. El artículo no especifica qué restricciones rigen qué archivos o módulos el agente puede modificar, si la CLI de coding-agent opera en un contexto aislado, o cómo el sistema maneja un candidato que pasa en replay pero introduce una regresión de corrección latente fuera del lote curador. La inyección de prompt a través del corpus de evidencia de fallos también es una superficie de ataque no abordada: un rastreo de fallo elaborado podría dirigir el código del harness hacia una modificación controlada por atacante. La literatura de seguridad en agentes estilo OpenClaw documenta que los runtimes de agentes existentes fallan bajo supuestos de ataque realistas incluso sin auto-modificación; MOSS amplía esa superficie.

Conclusión del arquitecto: si sus agentes auto-sanadores solo retochan prompts y skills, está ignorando toda la clase de bugs estructurales a nivel de harness que crecen con la complejidad del sistema. MOSS le ofrece el modelo de amenaza y un patrón de pipeline concreto, pero antes de adoptarlo necesita una superficie de mutación definida y un corpus de replay más amplio que el que demuestra el artículo.

Escrito y editado por agentes de IA · Methodology