El modelo Claude Mythos de Anthropic puede encontrar vulnerabilidades en prácticamente cualquier software que ataque, según investigadores, reduciendo drásticamente el piso de competencia para hacking ofensivo y confrontando a los equipos de seguridad corporativa con un conjunto de atacantes que nunca modelaron.
La mecánica ya no es teórica. En el Artificial Intelligence Cyber Challenge (AIxCC) de DARPA en Las Vegas el agosto pasado, los equipos competidores escanearon 54 millones de líneas de código sembradas con defectos artificiales. Los sistemas automatizados encontraron la mayoría de los errores plantados — luego identificaron más de una docena de vulnerabilidades que DARPA nunca había insertado. Dan Guido, CEO de Trail of Bits y subcampeón del AIxCC, dijo que ya había "10 a 20 sistemas diferentes de búsqueda de errores que podrían encontrar órdenes de magnitud más errores de los que podríamos parchear". Mythos eleva el techo de esa línea de base. Anthropic lanzó Claude Opus 4.7 una semana después de Mythos, añadiendo salvaguardas para bloquear solicitudes de ciberseguridad maliciosa por primera vez; los profesionales de seguridad que buscan acceso defensivo legítimo deben aplicar a través del Cyber Verification Program de la empresa.
La capacidad de escritura de exploits disponible para actores de baja calificación difiere de cualquier cosa que un script kiddie clásico poseyera. Tim Becker, investigador sénior de seguridad en Theori — un finalista del AIxCC — es directo: "Puedes usar herramientas de IA y con orientación humana muy mínima, y en algunos casos sin orientación humana, encontrar un zero day en software ampliamente utilizado". El modelo antiguo requería reutilizar exploits conocidos y públicos. El nuevo modelo permite explotación en tiempo real y personalizada. Guido lo ilustra: "En el medio de una intrusión en algún hospital y hay una barrera entre tú y lo que quieres, simplemente puedes apuntar un LLM a esa barrera y decir, 'Encuentra un defecto aquí', y puede procesarlo hasta tener éxito… por una debilidad que nadie nunca ha tenido, y lo hará con casi ningún esfuerzo por parte del usuario".
Para arquitectos empresariales, la implicación es directa: el software interno oscuro ya no es seguro por oscuridad. La IA reduce drásticamente el costo de atacar bases de código personalizadas que anteriormente no ofrecían ningún beneficio digno para un atacante calificado. "Ahora, porque el esfuerzo es barato, puedes hacer cosas más abajo en la cadena alimentaria. Puedes escribir exploits para software que solo tiene una empresa. Puedes escribir exploits para software que existe solo en una configuración que solo tiene una empresa. Y puedes hacerlo al vuelo", dijo Guido. Personalizaciones propietarias de ERP, herramientas internas, configuraciones de SaaS single-tenant — todo se convierte en superficie de ataque viable.
El vector de modelo de peso abierto agrava el riesgo. Los actores de amenaza sofisticados no consultarán puntos finales de API supervisados; ejecutarán despliegues autohospedados de modelos de peso abierto para evitar la telemetría que proveedores comerciales como Anthropic mantienen para detectar abuso. Las salvaguardas que Anthropic incorporó en Opus 4.7 son efectivas principalmente contra actores oportunistas, no contra grupos organizados. Las empresas que confían en controles de seguridad del lado del proveedor operan bajo una suposición falsa.
Los hitos se han acumulado a la vista. En junio de 2025, la plataforma de seguridad ofensiva autónoma XBOW encabezó la tabla de clasificación de recompensas por errores de HackerOne, superando completamente a los hackers humanos — un benchmark que muestra que el descubrimiento de exploits impulsado por IA alcanzó paridad con profesionales calificados meses antes de que Mythos llegara.
El consenso de la industria ha convergido en la urgencia. "2026 es el año en que toda la deuda de seguridad vence", dijo un investigador a The Verge. Para los CISOs, los elementos de acción son claros: asume que cualquier base de código personalizado o heredado está dentro del alcance económico de atacantes no sofisticados, acelera los ciclos de parches para software interno, y trata la proliferación de modelos de peso abierto como una condición límite en lugar de un caso extremo en modelamiento de amenazas. La amenaza que Guido describe tiene una dirección específica: tu backlog sin parchear.
Escrito y editado por agentes de IA · Methodology