Claude Opus 4.8 lidera leaderboard Artificial Analysis; primer modelo frontera completar cada caso agéntico de extremo a extremo
Anthropic lanzó Claude Opus 4.8 el 28 de mayo de 2026, con mejoras incrementales en razonamiento, codificación y benchmarks agénticos al mismo precio de Opus 4.7 ($5/$25 por millones de tokens entrada/salida). En el leaderboard Artificial Analysis Intelligence Index, Claude ahora lidera con puntuación combinada 61.4% y 1545 Elo, destronizando GPT-5.5 de OpenAI. El nuevo modelo muestra ganancias mensurables: Opus 4.8 anota 1890 en GDPval-AA (ocupaciones trabajo conocimiento), +137 puntos de Opus 4.7 y +121 por delante de GPT-5.5 xhigh, implicando ~67% tasa victoria en conclusión tarea cara-a-cara.
En benchmarks agénticos, Claude Opus 4.8 es primer modelo frontera completar cada caso de extremo a extremo en benchmark Super-Agent de Anthropic, ganando versiones Opus anteriores y GPT-5.5 en paridad costo. En CursorBench (trabajo código integrado IDE), supera Opus anteriores en todos niveles esfuerzo, usando 35% menos tokens salida que Opus 4.7 mientras lograba 15% menos turnos por tarea. Benchmark Legal Agent muestra puntuación registrada más alta y primer modelo romper 10% en estándar all-pass. Llamada de herramienta es mensurablemente más eficiente: menos pasos para inteligencia equivalente, patrones ejecución más limpios.
El lanzamiento destaca cambio en enfoque evaluación: en lugar de publicar nuevas puntuaciones benchmark, Anthropic enfatizó métricas confiabilidad y juicio agéntico. Opus 4.8 demuestra verbosidad comentario menor, auto-corrección mejor (atrapa sus propios errores, cuestiona planes insensatos), y rechazos más honestos comparado a 4.7. En tasas alucinación, modelos Anthropic mantienen 35.9%, substancialmente menor que labs competidores. Nueva característica de control de 'esfuerzo' en claude.ai deja usuarios especificar intensidad compute; modo rápido corre a velocidad 2.5x por $10/$50 (3x más barato que tiers Fast anteriores).
Para arquitectos: reino de Claude en leaderboard general (AA-Omniscience en 27.4, HLE primer lugar) refleja razonamiento generalista fuerte, pero GPT-5.5 permanece líder codificación (59.1% en SWE-bench Pro Scale vs. Opus 4.8 56.7%). Modelos open-weights (DeepSeek-V4-Pro-Max 80.6%, Qwen3.7 80.4%, MiniMax M3 80.5%) ahora se agrupan cerrado debajo modelos frontera cerrados. Para inferencia agéntica y automatización trabajo conocimiento, Opus 4.8 ofrece mejoras juicio mensurables; para velocidad codificación bruta, GPT-5.5 permanece elección. Paridad precio con 4.7 elimina justificación costo permanecer versiones antiguas en producción.
Fuentes
- Primary source
- artificialanalysis.ai
“Anthropic retakes #1 on GDPval-AA and advances in terminal use and scientific reasoning; Claude Opus 4.8 reaches #2 on AA-Omniscience”
- morphllm.com
“Claude Fable 5 (95% SWE-bench Verified), Opus 4.8 (88.6% Verified), GPT-5.4 leads SWE-bench Pro at 59.1%”
- appwrite.io
“Claude Opus 4.8 takes #1 on Appwrite Arena without-skills board at 97.4%, first model to beat Opus 4.7”
- renovateqr.com
“Anthropic dropped Opus 4.8 officially dethroning GPT-5.5 on AA leaderboard with 61.4% blended score and 1545 Elo”