Claude Opus 4.8 lidera leaderboard Artificial Analysis; primeiro modelo fronteira completar cada caso agêntico fim-a-fim
Anthropic lançou Claude Opus 4.8 em 28 de maio de 2026, com melhorias incrementais em raciocínio, codificação e benchmarks agênticos ao mesmo preço de Opus 4.7 ($5/$25 por milhões de tokens entrada/saída). No leaderboard Artificial Analysis Intelligence Index, Claude agora lidera com score combinado 61.4% e 1545 Elo, destronizando GPT-5.5 de OpenAI. O novo modelo mostra ganhos mensu ráveis: Opus 4.8 marca 1890 em GDPval-AA (ocupações trabalho conhecimento), +137 pontos de Opus 4.7 e +121 à frente de GPT-5.5 xhigh, implicando ~67% taxa vitória em conclusão tarefa head-a-head.
Em benchmarks agênticos, Claude Opus 4.8 é primeiro modelo fronteira completar cada caso fim-a-fim em benchmark Super-Agent de Anthropic, batendo versões Opus anteriores e GPT-5.5 em paridade custo. Em CursorBench (trabalho código integrado IDE), supera Opus anteriores em todos níveis esforo, usando 35% menos tokens saída que Opus 4.7 enquanto alcançando 15% menos turnos por tarefa. Benchmark Legal Agent mostra score registrado mais alto e primeiro modelo quebrar 10% em padrão all-pass. Chamada de ferramenta é mensuralmente mais eficiente: menos passos para inteligência equivalente, padrões execução mais limpos.
O lançamento destaca mudança em foco de avaliação: ao invés de publicar novo scores de benchmark, Anthropic enfatizou métricas de confiabilidade e julgamento agêntico. Opus 4.8 demonstra verbosidade comment menor, auto-correção melhor (pega seus próprios erros, empurra volta em planos insensatos), e recusas mais honestas comparado a 4.7. Em taxas alucinação, modelos Anthropic mantém 35.9%, substancialmente menor que labs concorrentes. Nova feature de controle de 'esforço' em claude.ai deixa usuários especificar intensidade compute; modo rápido roda em velocidade 2.5x por $10/$50 (3x mais barato que Fast tiers anteriores).
Para arquitetos: reino de Claude em leaderboard geral (AA-Omniscience em 27.4, HLE primeiro lugar) reflete raciocínio generalista forte, mas GPT-5.5 permanece líder codificação (59.1% em SWE-bench Pro Scale vs. Opus 4.8 56.7%). Modelos open-weights (DeepSeek-V4-Pro-Max 80.6%, Qwen3.7 80.4%, MiniMax M3 80.5%) agora agrupam cerrado abaixo modelos fronteira fechada. Para inferência agêntica e automação trabalho conhecimento, Opus 4.8 oferece melhorias julgamento mensuráveis; para velocidade codificação bruta, GPT-5.5 permanece escolha. Paridade preço com 4.7 elimina justificação custo permanecer versões antigas em produção.
Fontes
- Primary source
- artificialanalysis.ai
“Anthropic retakes #1 on GDPval-AA and advances in terminal use and scientific reasoning; Claude Opus 4.8 reaches #2 on AA-Omniscience”
- morphllm.com
“Claude Fable 5 (95% SWE-bench Verified), Opus 4.8 (88.6% Verified), GPT-5.4 leads SWE-bench Pro at 59.1%”
- appwrite.io
“Claude Opus 4.8 takes #1 on Appwrite Arena without-skills board at 97.4%, first model to beat Opus 4.7”
- renovateqr.com
“Anthropic dropped Opus 4.8 officially dethroning GPT-5.5 on AA leaderboard with 61.4% blended score and 1545 Elo”