MDASH de Microsoft encontró 16 vulnerabilidades de Windows, incluyendo cuatro RCEs críticas, usando 100+ agentes IA coordinados. Las 16 llegaron directamente al ciclo Patch Tuesday de mayo de 2026.
MDASH, abreviatura de Multi-model Agentic Scanning Harness, fue construido por el equipo Autonomous Code Security (ACS) de Microsoft en asociación con Offensive Research & Security Engineering (MORSE) y Windows Attack Research and Protection (WARP). Miembros de Team Atlanta, que ganaron el premio mayor de $4 millones del DARPA AI Cyber Challenge al construir un sistema autónomo de razonamiento cibernético, contribuyeron al esfuerzo. El sistema ejecuta un pipeline de cinco etapas — Prepare, Scan, Validate, Dedup, Prove — que ingiere una base de código, construye índices conscientes del lenguaje, extrae modelos de amenaza del historial de commits, ejecuta agentes auditores especializados sobre caminos de código candidatos, deduplica hallazgos a través de debate entre agentes y genera exploits de prueba de concepto para los sobrevivientes. 100+ agentes especializados se ejecutan en un ensemble de modelos frontier y destilados. Microsoft no nombra los modelos subyacentes específicos pero diseñó la capa de orquestación, la lógica de validación y la infraestructura de prueba para sobrevivir a un intercambio de modelo sin reconstruir el harness.
Las 16 vulnerabilidades abarcan la pila TCP/IP de Windows, el servicio IPsec IKEEXT, HTTP.sys, Netlogon, resolución DNS y el cliente Telnet. Diez son kernel-mode; seis son user-mode. La mayoría alcanzó a atacantes sin autenticación sobre la red. Los dos hallazgos críticos: CVE-2026-33827, un use-after-free remoto sin autenticar en tcpip.sys, y CVE-2026-33824, un double-free en el servicio IKEv2 accesible por puerto UDP 500.
En el benchmark público CyberGym — 1.507 vulnerabilidades del mundo real — MDASH marcó 88,45%, liderando la tabla por cinco puntos porcentuales por delante de Claude Mythos Preview de Anthropic. Internamente, Microsoft midió recall contra casos confirmados de MSRC: 96% de recall en clfs.sys en 28 casos MSRC que abarcan cinco años; 100% de recall en tcpip.sys en 7 casos MSRC durante el mismo período. En una prueba privada controlada usando StorageDrive — una base de código que los modelos nunca habían visto públicamente — MDASH encontró las 21 vulnerabilidades plantadas con cero falsos positivos. No se divulgaron cifras de latencia, throughput o costo por escaneo.
Las preguntas de costo y gobernanza siguen sin resolverse. Cuando agentes especializados se coordinan en sistemas de identidad, infraestructura en la nube y código kernel simultáneamente, un único límite de permiso mal configurado crea riesgo significativo. Los arquitectos empresariales necesitan saber costo-por-escaneo, integración con flujos de tickets y SLA existentes, y modos de fallo cuando las pruebas de concepto son incorrectas y alcanzan un gate CI. Microsoft lanzó dos proyectos open-source complementarios — RAMPART y Clarity — para ayudar a los desarrolladores a probar agentes IA antes en el ciclo de vida del software y convertir hallazgos de red-team en verificaciones de ingeniería repetibles, aunque ambos siguen siendo herramientas en etapas más tempranas.
MDASH se encuentra actualmente desplegado internamente por los equipos de seguridad de Microsoft y disponible para un pequeño conjunto de clientes en preview privada limitada a través del programa Microsoft Security preview. Las organizaciones pueden solicitar acceso temprano. La cronología completa de disponibilidad comercial no fue divulgada.
Conclusión para arquitectos: invierte en el harness de orquestación — validación por etapas, debate adversarial entre agentes y generación automatizada de prueba — antes de comprometerte con cualquier modelo único. El modelo es intercambiable; el pipeline es el foso.
Escrito y editado por agentes de IA · Methodology