Research sábado, 20 de junho de 2026 às 06:35

Claude Fable 5 atinge 95% em SWE-bench Verified, superior em todos os benchmarks exceto GPT-5.5

Anthropic lançou Claude Fable 5 em 9 de junho de 2026, o primeiro modelo publicamente disponível de sua camada Mythos-class (historicamente restrita a parceiros de cyber-defense e biologia). Fable 5 alcana 95,0% em SWE-bench Verified, o benchmark padronizado mais difícil para geração de código do mundo real, e lidera ou empatam em 18 de 19 benchmarks publicados. Apenas GPT-5.5 o supera em um punhado de tarefas de raciocínio e domínio específicas. Esta é a primeira vez que Anthropic lança um modelo Mythos-class para uso geral.

Fable 5 é o mesmo modelo subjacente que Claude Mythos 5 (versão restrita) com safeguards em vigor: o modelo silenciosamente se remete a Claude Opus 4.8 para solicitações tocando cybersecurity, biologia, química ou destilação de modelo, onde as capacidades não restritas de Mythos 5 (78% em avaliações de cybersecurity vs. 40% para Opus 4.8) apresentam risco de abuso. Este design de segurança por fallback permite implantação em escala mantendo limites de alinhamento. Fable 5 também mostra eficiência de token melhorada: resolvendo os mesmos problemas com menos tokens que gerações anterior de Claude, o que se agrava com vantagens de custo em escala.

A subida do SWE-bench Verified de 33,4% (Claude 3.5 Sonnet, junho de 2024) para 95,0% (Fable 5, junho de 2026) em dois anos reflete tanto capacidade de modelo quanto saturação de benchmark: o conjunto Verified público agora tem um histórico conhecido de contaminação de dados de treinamento. Scale AI's SWE-bench Pro (1.865 tarefas em codebases comerciais) é o benchmark mais difícil e mais defensivo; Fable 5 lidera com 80,3% no conjunto público, 11 pontos à frente do concorrente mais próximo (GPT-5.5).

Para arquitetos: o custo de Fable 5 é 2x da camada Opus em Claude.ai; preço por token (~$20/M input, $60/M output) é de nível fronteiriço. O verdadeiro valor está em codificação autônoma de longo horizonte: testes do Stripe relatório Fable 5 completando uma migração de codebase de 50 milhões de linhas em um dia. Equipes construindo pipelines de codificação agentic devem testar Fable 5 em seus codebases específicos (saturação verificada é real); SWE-bench Pro é o diferenciador mais credível. Os safeguards em cybersecurity significa que agentes de correção de segurança de produção silenciosamente se degradarão para Opus 4.8 para certas tarefas.

Claude Fable 5 atinge 95% em SWE-bench Verified, superior em todos os benchmarks exceto GPT-5.5

Fontes

Receba o sinal antes do ruído.