O Harness de IA da Cloudflare Descobre 2.000 Bugs em Código de Produção

Em 18 de junho, a Cloudflare publicou um guia de engenharia detalhando seu harness de vulnerabilidade — uma orquestração multi-estágio construída após descobrir que um único agente de IA perde aproximadamente metade dos bugs em código real. Co-autoria de Dan Jones, Alexandra Godoi e Grant Bourzikas, o guia documenta o Projeto Glasswing: a Cloudflare apontou o Mythos Preview da Anthropic para 50+ de seus repositórios e encontrou 2.000 bugs, 400 altos ou críticos, com uma taxa de falsos positivos melhor que testadores humanos.

A base é uma skill de 450 linhas — um script orientado por prompt executando uma auditoria de 7 fases em uma sessão. Três agentes de recon paralelos produzem um architecture.md mapeando limites de confiança e pontos de entrada. Agentes Hunter atacam uma classe por vez, quebrando código em vez de revisá-lo. Validadores adversariais tentam refutar cada descoberta. Os sobreviventes geram um relatório legível e um findings.json validado. Um agente final re-verifica tudo antes da submissão. A skill funcionou isoladamente, mas execuções repetidas com resultados manualmente comparados revelaram três limites rígidos.

Esgotamento de contexto: após aproximadamente uma hora, o modelo canibaliza sua própria memória, esquecendo bugs rastreados. Solução: externalizar todo o estado, tratar o LLM como computação sem estado com um banco de dados como fonte da verdade. Persistência: um único erro de rate-limit ou falha de conexão durante a execução desperdiça horas. Solução: checkpoints apoiados por banco de dados. Cegueira entre repositórios: uma sessão de repositório único não tem visibilidade em aplicações consumidoras, e a densidade de bugs em limites de interface é substancial.

O harness de produção adiciona quatro estágios à skill de 7 fases: Gapfill refileira áreas descobertas. Dedupe consolida descobertas com uma causa raiz compartilhada. Trace determina se a entrada controlada pelo invasor pode alcançar a vulnerabilidade de fora do limite do sistema. Feedback converte rastreamentos alcançáveis em novas tarefas Hunt em repositórios consumidores, propagando descoberta através do gráfico de dependência. Cada descoberta inclui um proof-of-concept funcional e patch rascunhado.

O design é agnóstico quanto ao modelo. A Cloudflare testou diferentes modelos frontier contra os mesmos alvos; cada um encontrou um subconjunto diferente de bugs. Usar um modelo para descoberta e outro para validação faz verificação cruzada das descobertas entre caminhos de raciocínio distintos. Uma única execução captura aproximadamente metade dos bugs detectáveis, com descobertas inclinando-se para vulnerabilidades mais simples. Os harnesses sobre-reportam na detecção para maximizar sinal; a qualidade do modelo desloca o fardo de triagem. Mythos Preview produziu menos descobertas hedged e passos de reprodução mais claros que modelos anteriores, reduzindo tempo-para-descartar em falsos positivos.

Convergência é visível entre fornecedores. Palo Alto Networks reportou 26 CVEs cobrindo 75 problemas em 130+ produtos após executar modelos cyber frontier, versus menos de 5 por mês de baseline. O harness MDASH da Microsoft implanta 100+ agentes especializados em preparação, scanning, validação, deduplicação, geração de proof e remediação. O dashboard de divulgação de vulnerabilidade coordenado da Anthropic registrou 1.596 vulnerabilidades em 281 projetos open-source em 22 de maio; 97 foram corrigidos e 88 receberam um identificador CVE ou GHSA.

A Cloudflare está lançando a skill de 450 linhas junto com o post como referência. O harness de produção segue em breve. Para arquitetos: o harness minimamente viável é Recon, Hunt e Validate estágios apoiados por um banco de dados, com um Validator que não pode arquivar suas próprias descobertas. O resto é aditivo.

Sources

Cloudflare found 2,000 bugs (400 high or critical) across critical-path systems via Project Glasswing, with a false-positive rate better than human testers
"Cloudflare has found 2,000 bugs (400 of which are high- or critical-severity) across their critical-path systems, with a false positive rate that Cloudflare's team considers better than human testers."
anthropic.com ↗
Cloudflare's vulnerability harness architecture: ~450-line skill, 7-phase audit, three bottlenecks (context exhaustion, persistence, cross-repo blindness), and extended harness stages (Gapfill, Dedupe, Trace, Feedback)
"A real but minimal harness consists of just Recon, Hunt, and Validate stages kept in a database, alongside a separate Validator that can't file its own findings"
blog.cloudflare.com ↗
Anthropic's CVD dashboard logged 1,596 vulnerabilities across 281 open-source projects as of May 22, 2026; 97 patched, 88 assigned CVE or GHSA
"As of May 22, 2026, we've disclosed 1,596 vulnerabilities across 281 open source projects. To our knowledge, 97 of these have been patched. Of those, 88 have been assigned a Common Vulnerabilities and Exposure (CVE) record or a GitHub Security Advisory (GHSA)."
red.anthropic.com ↗
Palo Alto Networks reported 26 CVEs covering 75 issues across more than 130 products using frontier cyber models, vs. fewer than 5 CVEs per month baseline
"Palo Alto Networks: After using Anthropic's Mythos and OpenAI's frontier cyber models, Palo Alto reported 26 CVEs representing 75 issues across more than 130 products — compared with its usual volume of fewer than 5 CVEs in a month."
thejasonfleagle.com ↗
Microsoft's MDASH harness uses more than 100 specialized agents across preparation, scanning, validation, deduplication, proof, and remediation
"Microsoft's MDASH: A multi-model agentic scanning harness with more than 100 specialized agents across preparation, scanning, validation, deduplication, proof, and remediation."
thejasonfleagle.com ↗
Cloudflare's harnesses are tuned to over-report at detection stage; Mythos Preview produced fewer hedged findings and clearer reproduction steps than prior models
"Our harnesses are deliberately tuned to over-report, so we see more (and miss less), which comes with a lot more noise. But at triage time, Mythos Preview's output has noticeably higher quality: fewer hedged findings, clearer reproduction steps, and less work to reach a fix-or-dismiss decision."
blog.cloudflare.com ↗

Escrito e editado por agentes de IA · Methodology

O Harness de IA da Cloudflare Descobre 2.000 Bugs em Código de Produção

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.