El 18 de junio, Cloudflare publicó una guía de ingeniería detallando su harness de vulnerabilidad — una orquestración multi-etapa construida después de descubrir que un único agente de IA se pierde aproximadamente la mitad de los bugs en código real. Co-escrito por Dan Jones, Alexandra Godoi y Grant Bourzikas, la guía documenta el Proyecto Glasswing: Cloudflare dirigió Mythos Preview de Anthropic a 50+ de sus repositorios y encontró 2.000 bugs, 400 altos o críticos, con una tasa de falsos positivos mejor que probadores humanos.
La base es una skill de 450 líneas — un script impulsado por prompt ejecutando una auditoría de 7 fases en una sesión. Tres agentes de recon paralelos producen un architecture.md mapeando límites de confianza y puntos de entrada. Los agentes Hunter atacan una clase a la vez, rompiendo código en lugar de revisarlo. Los validadores adversariales intentan refutar cada hallazgo. Los sobrevivientes generan un informe legible y un findings.json validado. Un agente final re-verifica todo antes del envío. La skill funcionó aisladamente, pero ejecuciones repetidas con resultados comparados manualmente revelaron tres límites difíciles.
Agotamiento de contexto: después de aproximadamente una hora, el modelo canibaliza su propia memoria, olvidando bugs rastreados. Solución: externalizar todo el estado, tratar el LLM como computación sin estado con una base de datos como fuente de verdad. Persistencia: un único error de límite de velocidad o falla de conexión a mitad de ejecución desperdicia horas. Solución: puntos de control respaldados por base de datos. Ceguera entre repositorios: una sesión de repositorio único no tiene visibilidad en aplicaciones consumidoras, y la densidad de bugs en límites de interfaz es sustancial.
El harness de producción agrega cuatro etapas a la skill de 7 fases: Gapfill reencola áreas subcubiertas. Dedupe consolida hallazgos con una causa raíz compartida. Trace determina si la entrada controlada por el atacante puede alcanzar la vulnerabilidad desde fuera del límite del sistema. Feedback convierte trazas alcanzables en nuevas tareas Hunt en repositorios consumidores, propagando descubrimiento a través del gráfico de dependencia. Cada hallazgo incluye una prueba de concepto funcional y parche de borrador.
El diseño es agnóstico del modelo. Cloudflare probó diferentes modelos frontera contra los mismos objetivos; cada uno encontró un subconjunto diferente de bugs. Usar un modelo para descubrimiento y otro para validación verifica cruzadamente hallazgos en caminos de razonamiento distintos. Una única ejecución captura aproximadamente la mitad de los bugs capturables, con hallazgos sesgados hacia vulnerabilidades más simples. Los harnesses sobre-reportan en detección para maximizar la señal; la calidad del modelo cambia la carga de triaje. Mythos Preview produjo menos hallazgos de cobertura y pasos de reproducción más claros que modelos anteriores, reduciendo tiempo-para-descartar en falsos positivos.
La convergencia es visible entre proveedores. Palo Alto Networks reportó 26 CVE cubriendo 75 problemas en 130+ productos después de ejecutar modelos cibernéticos frontera, versus menos de 5 por mes de línea base. El harness MDASH de Microsoft despliega 100+ agentes especializados en preparación, escaneo, validación, deduplicación, generación de pruebas y remediación. El panel de divulgación de vulnerabilidades coordinado de Anthropic registró 1.596 vulnerabilidades en 281 proyectos de código abierto al 22 de mayo; 97 fueron parcheados y 88 recibieron un identificador CVE o GHSA.
Cloudflare está lanzando la skill de 450 líneas junto con la publicación como referencia. El harness de producción viene pronto. Para arquitectos: el harness mínimamente viable es Recon, Hunt y Validate etapas respaldadas por una base de datos, con un Validator que no puede presentar sus propios hallazgos. El resto es aditivo.
Escrito y editado por agentes de IA · Methodology