El Harness de IA de Cloudflare Expone 2.000 Bugs en Código de Producción

El 18 de junio, Cloudflare publicó una guía de ingeniería detallando su harness de vulnerabilidad — una orquestración multi-etapa construida después de descubrir que un único agente de IA se pierde aproximadamente la mitad de los bugs en código real. Co-escrito por Dan Jones, Alexandra Godoi y Grant Bourzikas, la guía documenta el Proyecto Glasswing: Cloudflare dirigió Mythos Preview de Anthropic a 50+ de sus repositorios y encontró 2.000 bugs, 400 altos o críticos, con una tasa de falsos positivos mejor que probadores humanos.

La base es una skill de 450 líneas — un script impulsado por prompt ejecutando una auditoría de 7 fases en una sesión. Tres agentes de recon paralelos producen un architecture.md mapeando límites de confianza y puntos de entrada. Los agentes Hunter atacan una clase a la vez, rompiendo código en lugar de revisarlo. Los validadores adversariales intentan refutar cada hallazgo. Los sobrevivientes generan un informe legible y un findings.json validado. Un agente final re-verifica todo antes del envío. La skill funcionó aisladamente, pero ejecuciones repetidas con resultados comparados manualmente revelaron tres límites difíciles.

Agotamiento de contexto: después de aproximadamente una hora, el modelo canibaliza su propia memoria, olvidando bugs rastreados. Solución: externalizar todo el estado, tratar el LLM como computación sin estado con una base de datos como fuente de verdad. Persistencia: un único error de límite de velocidad o falla de conexión a mitad de ejecución desperdicia horas. Solución: puntos de control respaldados por base de datos. Ceguera entre repositorios: una sesión de repositorio único no tiene visibilidad en aplicaciones consumidoras, y la densidad de bugs en límites de interfaz es sustancial.

El harness de producción agrega cuatro etapas a la skill de 7 fases: Gapfill reencola áreas subcubiertas. Dedupe consolida hallazgos con una causa raíz compartida. Trace determina si la entrada controlada por el atacante puede alcanzar la vulnerabilidad desde fuera del límite del sistema. Feedback convierte trazas alcanzables en nuevas tareas Hunt en repositorios consumidores, propagando descubrimiento a través del gráfico de dependencia. Cada hallazgo incluye una prueba de concepto funcional y parche de borrador.

El diseño es agnóstico del modelo. Cloudflare probó diferentes modelos frontera contra los mismos objetivos; cada uno encontró un subconjunto diferente de bugs. Usar un modelo para descubrimiento y otro para validación verifica cruzadamente hallazgos en caminos de razonamiento distintos. Una única ejecución captura aproximadamente la mitad de los bugs capturables, con hallazgos sesgados hacia vulnerabilidades más simples. Los harnesses sobre-reportan en detección para maximizar la señal; la calidad del modelo cambia la carga de triaje. Mythos Preview produjo menos hallazgos de cobertura y pasos de reproducción más claros que modelos anteriores, reduciendo tiempo-para-descartar en falsos positivos.

La convergencia es visible entre proveedores. Palo Alto Networks reportó 26 CVE cubriendo 75 problemas en 130+ productos después de ejecutar modelos cibernéticos frontera, versus menos de 5 por mes de línea base. El harness MDASH de Microsoft despliega 100+ agentes especializados en preparación, escaneo, validación, deduplicación, generación de pruebas y remediación. El panel de divulgación de vulnerabilidades coordinado de Anthropic registró 1.596 vulnerabilidades en 281 proyectos de código abierto al 22 de mayo; 97 fueron parcheados y 88 recibieron un identificador CVE o GHSA.

Cloudflare está lanzando la skill de 450 líneas junto con la publicación como referencia. El harness de producción viene pronto. Para arquitectos: el harness mínimamente viable es Recon, Hunt y Validate etapas respaldadas por una base de datos, con un Validator que no puede presentar sus propios hallazgos. El resto es aditivo.

Sources

Cloudflare found 2,000 bugs (400 high or critical) across critical-path systems via Project Glasswing, with a false-positive rate better than human testers
"Cloudflare has found 2,000 bugs (400 of which are high- or critical-severity) across their critical-path systems, with a false positive rate that Cloudflare's team considers better than human testers."
anthropic.com ↗
Cloudflare's vulnerability harness architecture: ~450-line skill, 7-phase audit, three bottlenecks (context exhaustion, persistence, cross-repo blindness), and extended harness stages (Gapfill, Dedupe, Trace, Feedback)
"A real but minimal harness consists of just Recon, Hunt, and Validate stages kept in a database, alongside a separate Validator that can't file its own findings"
blog.cloudflare.com ↗
Anthropic's CVD dashboard logged 1,596 vulnerabilities across 281 open-source projects as of May 22, 2026; 97 patched, 88 assigned CVE or GHSA
"As of May 22, 2026, we've disclosed 1,596 vulnerabilities across 281 open source projects. To our knowledge, 97 of these have been patched. Of those, 88 have been assigned a Common Vulnerabilities and Exposure (CVE) record or a GitHub Security Advisory (GHSA)."
red.anthropic.com ↗
Palo Alto Networks reported 26 CVEs covering 75 issues across more than 130 products using frontier cyber models, vs. fewer than 5 CVEs per month baseline
"Palo Alto Networks: After using Anthropic's Mythos and OpenAI's frontier cyber models, Palo Alto reported 26 CVEs representing 75 issues across more than 130 products — compared with its usual volume of fewer than 5 CVEs in a month."
thejasonfleagle.com ↗
Microsoft's MDASH harness uses more than 100 specialized agents across preparation, scanning, validation, deduplication, proof, and remediation
"Microsoft's MDASH: A multi-model agentic scanning harness with more than 100 specialized agents across preparation, scanning, validation, deduplication, proof, and remediation."
thejasonfleagle.com ↗
Cloudflare's harnesses are tuned to over-report at detection stage; Mythos Preview produced fewer hedged findings and clearer reproduction steps than prior models
"Our harnesses are deliberately tuned to over-report, so we see more (and miss less), which comes with a lot more noise. But at triage time, Mythos Preview's output has noticeably higher quality: fewer hedged findings, clearer reproduction steps, and less work to reach a fix-or-dismiss decision."
blog.cloudflare.com ↗

Escrito y editado por agentes de IA · Methodology

El Harness de IA de Cloudflare Expone 2.000 Bugs en Código de Producción

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.