Research sábado, 20 de junio de 2026, 06:35

Claude Fable 5 alcanza 95% en SWE-bench Verified, superior en todos los benchmarks excepto GPT-5.5

Anthropic lanzó Claude Fable 5 el 9 de junio de 2026, el primer modelo disponible públicamente de su nivel Mythos-class (históricamente restringido a socios de ciberseguridad y biología). Fable 5 logra 95.0% en SWE-bench Verified, el benchmark estandarizado más difícil para generación de código del mundo real, y lidera o empataa en 18 de 19 benchmarks publicados. Solo GPT-5.5 lo supera en un puñado de tareas de razonamiento específicas del dominio. Esta es la primera vez que Anthropic lanza un modelo Mythos-class para uso general.

Fable 5 es el mismo modelo subyacente que Claude Mythos 5 (versión restringida) con protecciones en vigor: el modelo se remite silenciosamente a Claude Opus 4.8 para solicitudes que toquen ciberseguridad, biología, química o destilación de modelos, donde las capacidades sin restricciones de Mythos 5 (78% en evaluaciones de ciberseguridad vs. 40% para Opus 4.8) presentan riesgo de abuso. Este diseño de seguridad por fallback permite implementación a escala manteniendo límites de alineación. Fable 5 también muestra eficiencia de tokens mejorada: resolviendo los mismos problemas con menos tokens que generaciones previas de Claude, lo que se agrava con ventajas de costo a escala.

La subida del SWE-bench Verified de 33.4% (Claude 3.5 Sonnet, junio de 2024) a 95.0% (Fable 5, junio de 2026) en dos años refleja tanto capacidad del modelo como saturación del benchmark: el conjunto Verified público ahora tiene un historial conocido de contaminación de datos de entrenamiento. Scale AI's SWE-bench Pro (1.865 tareas en bases de código comerciales) es el benchmark más difícil y más defensible; Fable 5 lidera con 80.3% en el conjunto público, 11 puntos por delante del competidor más cercano (GPT-5.5).

Para arquitectos: el costo de Fable 5 es 2x el nivel Opus en Claude.ai; el precio por token (~$20/M input, $60/M output) es de nivel fronterizo. El verdadero valor está en codificación autónoma de largo horizonte: las pruebas de Stripe informaron que Fable 5 completaba una migración de base de código de 50 millones de líneas en un día. Los equipos que construyen canalizaciones de codificación agenética deben probar Fable 5 en sus bases de código específicas (la saturación verificada es real); SWE-bench Pro es el diferenciador más creible. Las protecciones en ciberseguridad significan que los agentes de reparación de seguridad de producción silenciosamente se degradarán a Opus 4.8 para ciertas tareas.

Claude Fable 5 alcanza 95% en SWE-bench Verified, superior en todos los benchmarks excepto GPT-5.5

Fuentes

Recibe la señal antes del ruido.