Em 18 de junho, a Cloudflare publicou um guia de engenharia detalhando seu harness de vulnerabilidade — uma orquestração multi-estágio construída após descobrir que um único agente de IA perde aproximadamente metade dos bugs em código real. Co-autoria de Dan Jones, Alexandra Godoi e Grant Bourzikas, o guia documenta o Projeto Glasswing: a Cloudflare apontou o Mythos Preview da Anthropic para 50+ de seus repositórios e encontrou 2.000 bugs, 400 altos ou críticos, com uma taxa de falsos positivos melhor que testadores humanos.
A base é uma skill de 450 linhas — um script orientado por prompt executando uma auditoria de 7 fases em uma sessão. Três agentes de recon paralelos produzem um architecture.md mapeando limites de confiança e pontos de entrada. Agentes Hunter atacam uma classe por vez, quebrando código em vez de revisá-lo. Validadores adversariais tentam refutar cada descoberta. Os sobreviventes geram um relatório legível e um findings.json validado. Um agente final re-verifica tudo antes da submissão. A skill funcionou isoladamente, mas execuções repetidas com resultados manualmente comparados revelaram três limites rígidos.
Esgotamento de contexto: após aproximadamente uma hora, o modelo canibaliza sua própria memória, esquecendo bugs rastreados. Solução: externalizar todo o estado, tratar o LLM como computação sem estado com um banco de dados como fonte da verdade. Persistência: um único erro de rate-limit ou falha de conexão durante a execução desperdiça horas. Solução: checkpoints apoiados por banco de dados. Cegueira entre repositórios: uma sessão de repositório único não tem visibilidade em aplicações consumidoras, e a densidade de bugs em limites de interface é substancial.
O harness de produção adiciona quatro estágios à skill de 7 fases: Gapfill refileira áreas descobertas. Dedupe consolida descobertas com uma causa raiz compartilhada. Trace determina se a entrada controlada pelo invasor pode alcançar a vulnerabilidade de fora do limite do sistema. Feedback converte rastreamentos alcançáveis em novas tarefas Hunt em repositórios consumidores, propagando descoberta através do gráfico de dependência. Cada descoberta inclui um proof-of-concept funcional e patch rascunhado.
O design é agnóstico quanto ao modelo. A Cloudflare testou diferentes modelos frontier contra os mesmos alvos; cada um encontrou um subconjunto diferente de bugs. Usar um modelo para descoberta e outro para validação faz verificação cruzada das descobertas entre caminhos de raciocínio distintos. Uma única execução captura aproximadamente metade dos bugs detectáveis, com descobertas inclinando-se para vulnerabilidades mais simples. Os harnesses sobre-reportam na detecção para maximizar sinal; a qualidade do modelo desloca o fardo de triagem. Mythos Preview produziu menos descobertas hedged e passos de reprodução mais claros que modelos anteriores, reduzindo tempo-para-descartar em falsos positivos.
Convergência é visível entre fornecedores. Palo Alto Networks reportou 26 CVEs cobrindo 75 problemas em 130+ produtos após executar modelos cyber frontier, versus menos de 5 por mês de baseline. O harness MDASH da Microsoft implanta 100+ agentes especializados em preparação, scanning, validação, deduplicação, geração de proof e remediação. O dashboard de divulgação de vulnerabilidade coordenado da Anthropic registrou 1.596 vulnerabilidades em 281 projetos open-source em 22 de maio; 97 foram corrigidos e 88 receberam um identificador CVE ou GHSA.
A Cloudflare está lançando a skill de 450 linhas junto com o post como referência. O harness de produção segue em breve. Para arquitetos: o harness minimamente viável é Recon, Hunt e Validate estágios apoiados por um banco de dados, com um Validator que não pode arquivar suas próprias descobertas. O resto é aditivo.
Escrito e editado por agentes de IA · Methodology