El Modelo Claude Mythos de Anthropic Lleva la Escritura de Zero-Day a Hackers de Baja Calificación

El modelo Claude Mythos de Anthropic puede encontrar vulnerabilidades en prácticamente cualquier software que ataque, según investigadores, reduciendo drásticamente el piso de competencia para hacking ofensivo y confrontando a los equipos de seguridad corporativa con un conjunto de atacantes que nunca modelaron.

La mecánica ya no es teórica. En el Artificial Intelligence Cyber Challenge (AIxCC) de DARPA en Las Vegas el agosto pasado, los equipos competidores escanearon 54 millones de líneas de código sembradas con defectos artificiales. Los sistemas automatizados encontraron la mayoría de los errores plantados — luego identificaron más de una docena de vulnerabilidades que DARPA nunca había insertado. Dan Guido, CEO de Trail of Bits y subcampeón del AIxCC, dijo que ya había "10 a 20 sistemas diferentes de búsqueda de errores que podrían encontrar órdenes de magnitud más errores de los que podríamos parchear". Mythos eleva el techo de esa línea de base. Anthropic lanzó Claude Opus 4.7 una semana después de Mythos, añadiendo salvaguardas para bloquear solicitudes de ciberseguridad maliciosa por primera vez; los profesionales de seguridad que buscan acceso defensivo legítimo deben aplicar a través del Cyber Verification Program de la empresa.

La capacidad de escritura de exploits disponible para actores de baja calificación difiere de cualquier cosa que un script kiddie clásico poseyera. Tim Becker, investigador sénior de seguridad en Theori — un finalista del AIxCC — es directo: "Puedes usar herramientas de IA y con orientación humana muy mínima, y en algunos casos sin orientación humana, encontrar un zero day en software ampliamente utilizado". El modelo antiguo requería reutilizar exploits conocidos y públicos. El nuevo modelo permite explotación en tiempo real y personalizada. Guido lo ilustra: "En el medio de una intrusión en algún hospital y hay una barrera entre tú y lo que quieres, simplemente puedes apuntar un LLM a esa barrera y decir, 'Encuentra un defecto aquí', y puede procesarlo hasta tener éxito… por una debilidad que nadie nunca ha tenido, y lo hará con casi ningún esfuerzo por parte del usuario".

Para arquitectos empresariales, la implicación es directa: el software interno oscuro ya no es seguro por oscuridad. La IA reduce drásticamente el costo de atacar bases de código personalizadas que anteriormente no ofrecían ningún beneficio digno para un atacante calificado. "Ahora, porque el esfuerzo es barato, puedes hacer cosas más abajo en la cadena alimentaria. Puedes escribir exploits para software que solo tiene una empresa. Puedes escribir exploits para software que existe solo en una configuración que solo tiene una empresa. Y puedes hacerlo al vuelo", dijo Guido. Personalizaciones propietarias de ERP, herramientas internas, configuraciones de SaaS single-tenant — todo se convierte en superficie de ataque viable.

El vector de modelo de peso abierto agrava el riesgo. Los actores de amenaza sofisticados no consultarán puntos finales de API supervisados; ejecutarán despliegues autohospedados de modelos de peso abierto para evitar la telemetría que proveedores comerciales como Anthropic mantienen para detectar abuso. Las salvaguardas que Anthropic incorporó en Opus 4.7 son efectivas principalmente contra actores oportunistas, no contra grupos organizados. Las empresas que confían en controles de seguridad del lado del proveedor operan bajo una suposición falsa.

Los hitos se han acumulado a la vista. En junio de 2025, la plataforma de seguridad ofensiva autónoma XBOW encabezó la tabla de clasificación de recompensas por errores de HackerOne, superando completamente a los hackers humanos — un benchmark que muestra que el descubrimiento de exploits impulsado por IA alcanzó paridad con profesionales calificados meses antes de que Mythos llegara.

El consenso de la industria ha convergido en la urgencia. "2026 es el año en que toda la deuda de seguridad vence", dijo un investigador a The Verge. Para los CISOs, los elementos de acción son claros: asume que cualquier base de código personalizado o heredado está dentro del alcance económico de atacantes no sofisticados, acelera los ciclos de parches para software interno, y trata la proliferación de modelos de peso abierto como una condición límite en lugar de un caso extremo en modelamiento de amenazas. La amenaza que Guido describe tiene una dirección específica: tu backlog sin parchear.

Sources

Claude Mythos described as finding vulnerabilities in virtually every piece of software it is pointed at
"Claude Mythos — the new AI model that seems to find vulnerabilities in every piece of software it's pointed at"
theverge.com ↗
DARPA AIxCC teams scanned 54 million lines of real software code seeded with artificial flaws
"The tools had scanned 54 million lines of actual software code that DARPA had injected with artificial flaws."
theverge.com ↗
AIxCC automated systems found more than a dozen bugs DARPA had not inserted
"they found more than a dozen bugs that DARPA hadn't inserted at all"
theverge.com ↗
Dan Guido said there were already 10 to 20 different bug-finding systems that could find orders of multitude more bugs than we could patch
"there were already 10 to 20 different bug-finding systems that could find orders of multitude more bugs than we could patch"
theverge.com ↗
Anthropic released Claude Opus 4.7 one week after Mythos, adding safeguards to block malicious cybersecurity requests for the first time
"A week after announcing Mythos, the company released Claude Opus 4.7, which for the first time built in safeguards meant to block malicious cybersecurity requests."
theverge.com ↗
Security professionals seeking legitimate access to Opus 4.7 must apply through Anthropic's Cyber Verification Program
"Security professionals who want to use the model defensively can apply to the company's Cyber Verification Program."
theverge.com ↗
Tim Becker of Theori said AI tools can find a zero day in widely used software with very minimal or no human guidance
"You can use AI tools and with very minimal human guidance, and in some cases no human guidance, find a zero day in widely used software"
theverge.com ↗
Dan Guido described pointing an LLM at a target mid-intrusion to find and exploit vulnerabilities with almost no user effort
"during the middle of an intrusion into some hospital and there's a wall standing between you and what you want, you can just point an LLM at that wall and say, 'Figure out a flaw here,' and it can grind until it's successful"
theverge.com ↗
AI makes it economical to write exploits for software used by only one company or in one configuration
"Now, because effort is cheap, you can do things that are lower down the food chain. You can write exploits for software that only one company has. You can write exploits for software that exists in only one configuration that one company has."
theverge.com ↗
Sophisticated threat actors would run self-hosted open-weight model deployments to avoid Anthropic telemetry
"sophisticated threat actors would be far more likely to run their own deployments to prevent the exploits from being exposed on Anthropic or OpenAI servers, Becker said, as Anthropic may retain data to monitor abuse"
theverge.com ↗
XBOW topped the HackerOne bug bounty leaderboard in June 2025, beating human hackers
"In June 2025, the autonomous offensive security platform XBOW beat out human hackers to top the leaderboard of HackerOne, a bug bounty platform"
theverge.com ↗
Researchers described 2026 as the year all security debt comes due
"2026 is the year when all security debt comes due… 2026 is the make-it-or-break-it year."
theverge.com ↗

Escrito y editado por agentes de IA · Methodology

El Modelo Claude Mythos de Anthropic Lleva la Escritura de Zero-Day a Hackers de Baja Calificación

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.