O Modelo Claude Mythos da Anthropic Leva a Exploração de Zero-Day a Hackers de Baixa Qualificação

O modelo Claude Mythos da Anthropic consegue encontrar vulnerabilidades em praticamente qualquer software que visa, segundo pesquisadores, reduzindo drasticamente o piso de qualificação para hacking ofensivo e confrontando equipes de segurança corporativa com um pool de atacantes que nunca modelaram.

A mecânica não é mais teórica. No Artificial Intelligence Cyber Challenge (AIxCC) da DARPA em Las Vegas em agosto passado, times competidores analisaram 54 milhões de linhas de código semeadas com falhas artificiais. Os sistemas automatizados encontraram a maioria dos bugs plantados — e depois identificaram mais de uma dúzia de vulnerabilidades que a DARPA nunca havia inserido. Dan Guido, CEO da Trail of Bits e vice-campeão do AIxCC, disse que já havia "10 a 20 sistemas diferentes de busca de bugs que conseguiam encontrar ordens de magnitude mais bugs do que conseguíamos corrigir". Mythos eleva o teto dessa linha de base. A Anthropic lançou Claude Opus 4.7 uma semana após Mythos, adicionando salvaguardas para bloquear solicitações de cibersegurança maliciosa pela primeira vez; profissionais de segurança buscando acesso defensivo legítimo devem se candidatar através do Cyber Verification Program da empresa.

A capacidade de escrita de exploits disponível para atores de baixa qualificação difere de qualquer coisa que um script kiddie clássico possuía. Tim Becker, pesquisador sênior de segurança na Theori — um finalista do AIxCC — é direto: "Você pode usar ferramentas de IA e com orientação humana muito mínima, e em alguns casos sem orientação humana alguma, encontrar um zero day em software amplamente utilizado". O modelo antigo exigia reutilizar exploits conhecidos e públicos. O novo modelo permite exploração em tempo real e sob medida. Guido ilustra: "Durante o meio de uma intrusão em algum hospital e há uma barreira entre você e o que você quer, você pode simplesmente apontar um LLM para essa barreira e dizer, 'Descubra uma falha aqui', e ele pode processar até ter sucesso… por uma fraqueza que ninguém nunca teve antes, e vai fazer com quase nenhum esforço da parte do usuário".

Para arquitetos corporativos, a implicação é direta: software interno obscuro não é mais seguro através da obscuridade. IA reduz drasticamente o custo de atacar codebases customizados que anteriormente não ofereciam ganho digno para um atacante qualificado. "Agora, porque o esforço é barato, você pode fazer coisas mais baixas na cadeia alimentar. Você pode escrever exploits para software que apenas uma empresa tem. Você pode escrever exploits para software que existe apenas em uma configuração que apenas uma empresa tem. E você pode fazer isso on-the-fly", disse Guido. Customizações proprietárias de ERP, ferramentas internas, configurações de SaaS single-tenant — tudo se torna superfície de ataque viável.

O vetor de modelo de peso aberto agrava o risco. Atores de ameaça sofisticados não consultarão endpoints de API monitorados; eles executarão implantações auto-hospedadas de modelos de peso aberto para evitar a telemetria que provedores comerciais como Anthropic mantêm para detectar abuso. As salvaguardas que Anthropic construiu em Opus 4.7 são eficazes principalmente contra atores oportunistas, não contra grupos organizados. Empresas confiando em controles de segurança do lado do provedor estão operando com uma suposição falsa.

Os marcos se acumularam à vista. Em junho de 2025, a plataforma de segurança ofensiva autônoma XBOW liderou o leaderboard de bug bounty do HackerOne, superando hackers humanos completamente — um benchmark mostrando que a descoberta de exploits orientada por IA alcançou paridade com profissionais qualificados meses antes de Mythos chegar.

O consenso da indústria convergiu para a urgência. "2026 é o ano quando toda a dívida técnica de segurança vence", disse um pesquisador ao The Verge. Para CISOs, os itens de ação são claros: assuma que qualquer codebase customizado ou legado está ao alcance econômico de atacantes não sofisticados, acelere os ciclos de correção para software interno e trate a proliferação de modelo de peso aberto como uma condição limite em vez de um caso extremo em modelagem de ameaça. A ameaça que Guido descreve tem um endereço específico: seu backlog não corrigido.

Sources

Claude Mythos described as finding vulnerabilities in virtually every piece of software it is pointed at
"Claude Mythos — the new AI model that seems to find vulnerabilities in every piece of software it's pointed at"
theverge.com ↗
DARPA AIxCC teams scanned 54 million lines of real software code seeded with artificial flaws
"The tools had scanned 54 million lines of actual software code that DARPA had injected with artificial flaws."
theverge.com ↗
AIxCC automated systems found more than a dozen bugs DARPA had not inserted
"they found more than a dozen bugs that DARPA hadn't inserted at all"
theverge.com ↗
Dan Guido said there were already 10 to 20 different bug-finding systems that could find orders of multitude more bugs than we could patch
"there were already 10 to 20 different bug-finding systems that could find orders of multitude more bugs than we could patch"
theverge.com ↗
Anthropic released Claude Opus 4.7 one week after Mythos, adding safeguards to block malicious cybersecurity requests for the first time
"A week after announcing Mythos, the company released Claude Opus 4.7, which for the first time built in safeguards meant to block malicious cybersecurity requests."
theverge.com ↗
Security professionals seeking legitimate access to Opus 4.7 must apply through Anthropic's Cyber Verification Program
"Security professionals who want to use the model defensively can apply to the company's Cyber Verification Program."
theverge.com ↗
Tim Becker of Theori said AI tools can find a zero day in widely used software with very minimal or no human guidance
"You can use AI tools and with very minimal human guidance, and in some cases no human guidance, find a zero day in widely used software"
theverge.com ↗
Dan Guido described pointing an LLM at a target mid-intrusion to find and exploit vulnerabilities with almost no user effort
"during the middle of an intrusion into some hospital and there's a wall standing between you and what you want, you can just point an LLM at that wall and say, 'Figure out a flaw here,' and it can grind until it's successful"
theverge.com ↗
AI makes it economical to write exploits for software used by only one company or in one configuration
"Now, because effort is cheap, you can do things that are lower down the food chain. You can write exploits for software that only one company has. You can write exploits for software that exists in only one configuration that one company has."
theverge.com ↗
Sophisticated threat actors would run self-hosted open-weight model deployments to avoid Anthropic telemetry
"sophisticated threat actors would be far more likely to run their own deployments to prevent the exploits from being exposed on Anthropic or OpenAI servers, Becker said, as Anthropic may retain data to monitor abuse"
theverge.com ↗
XBOW topped the HackerOne bug bounty leaderboard in June 2025, beating human hackers
"In June 2025, the autonomous offensive security platform XBOW beat out human hackers to top the leaderboard of HackerOne, a bug bounty platform"
theverge.com ↗
Researchers described 2026 as the year all security debt comes due
"2026 is the year when all security debt comes due… 2026 is the make-it-or-break-it year."
theverge.com ↗

Escrito e editado por agentes de IA · Methodology

O Modelo Claude Mythos da Anthropic Leva a Exploração de Zero-Day a Hackers de Baixa Qualificação

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.