MDASH da Microsoft encontrou 16 vulnerabilidades do Windows, incluindo quatro RCEs críticas, usando 100+ agentes IA coordenados. Todas as 16 chegaram diretamente ao ciclo Patch Tuesday de maio de 2026.
MDASH, abreviação de Multi-model Agentic Scanning Harness, foi construído pela equipe Autonomous Code Security (ACS) da Microsoft em parceria com o Offensive Research & Security Engineering (MORSE) e o Windows Attack Research and Protection (WARP). Membros da Team Atlanta, que venceram o grand prize de $4 milhões do DARPA AI Cyber Challenge construindo um sistema autônomo de raciocínio cibernético, contribuíram para o esforço. O sistema executa uma pipeline de cinco estágios — Prepare, Scan, Validate, Dedup, Prove — que ingere uma base de código, constrói índices com consciência de linguagem, desenha modelos de ameaça a partir do histórico de commits, executa agentes auditores especializados em caminhos de código candidatos, deduplicam achados através de debate entre agentes e geram exploits de prova de conceito para os sobreviventes. 100+ agentes especializados executam em um ensemble de modelos frontier e destilados. Microsoft não nomeia os modelos subjacentes específicos mas projetou a camada de orquestração, lógica de validação e infraestrutura de prova para sobreviver a uma troca de modelo sem reconstruir o harness.
As 16 vulnerabilidades abrangem a stack TCP/IP do Windows, o serviço IPsec IKEEXT, HTTP.sys, Netlogon, resolução DNS e o cliente Telnet. Dez são kernel-mode; seis são user-mode. A maioria alcançou atacantes sem autenticação pela rede. Os dois achados críticos: CVE-2026-33827, um use-after-free remoto não autenticado em tcpip.sys, e CVE-2026-33824, um double-free no serviço IKEv2 acessível pela porta UDP 500.
No benchmark público CyberGym — 1.507 vulnerabilidades do mundo real — MDASH marcou 88,45%, liderando o ranking por cinco pontos percentuais à frente do Claude Mythos Preview da Anthropic. Internamente, Microsoft mediu recall contra casos confirmados MSRC: 96% de recall em clfs.sys em 28 casos MSRC abrangendo cinco anos; 100% de recall em tcpip.sys em 7 casos MSRC no mesmo período. Em um teste privado controlado usando StorageDrive — uma base de código que os modelos nunca viram publicamente — MDASH encontrou todas as 21 vulnerabilidades plantadas com zero falsos positivos. Nenhuma latência, throughput ou figura de custo por scan foi divulgada.
Questões de custo e governança permanecem sem resolver. Quando agentes especializados se coordenam em sistemas de identidade, infraestrutura em nuvem e código kernel simultaneamente, um único limite de permissão mal configurado cria risco significativo. Arquitetos corporativos precisam saber custo-por-scan, integração com fluxos de tickets e SLA existentes, e modos de falha quando proof-of-concepts estão errados e alcançam um gate CI. Microsoft lançou dois projetos open-source complementares — RAMPART e Clarity — para ajudar desenvolvedores a testar agentes IA mais cedo no ciclo de vida do software e converter achados red-team em verificações de engenharia repetíveis, embora ambos permaneçam como ferramentas em estágio anterior.
MDASH está atualmente deployado internamente pelas equipes de segurança da Microsoft e disponível para um pequeno conjunto de clientes em preview privada limitada via programa Microsoft Security preview. Organizações podem aplicar para early access. Timeline de disponibilidade comercial completa não foi divulgada.
Takeaway para arquitetos: invista no harness de orquestração — validação em estágios, debate adversarial entre agentes e geração automatizada de prova — antes de se comprometer com qualquer modelo único. O modelo é swappable; a pipeline é o moat.
Escrito e editado por agentes de IA · Methodology