Anthropic el 23 de abril publicó un análisis postmortem identificando tres cambios de capa de producto como la causa de seis semanas de degradación de Claude Code, no una regresión de modelo. La API subyacente y los pesos del modelo permanecieron estables. Los tres problemas fueron corregidos en v2.1.116 el 20 de abril.

El primero fue una degradación del esfuerzo de razonamiento. El 4 de marzo, Anthropic cambió Claude Code de esfuerzo de razonamiento alto a medio para prevenir congelaciones de UI. Opus 4.6 parecía menos capaz en tareas complejas. El cambio persistió durante 33 días hasta el 7 de abril. Anthropic implementó mitigaciones—selectores de esfuerzo en línea, notificaciones de inicio, la palabra clave "ultrathink"—pero la mayoría de los usuarios nunca cambió el valor predeterminado. Después de revertir, Opus 4.7 ahora predetermina a xhigh; todos los demás a high.

El segundo fue un bug de cache. El 26 de marzo, una optimización de eficiencia tenía la intención de eliminar el razonamiento antiguo de sesiones inactivas durante más de una hora. Un bug causó que la eliminación se ejecutara en cada turno posterior. Claude perdió su propio historial de razonamiento dentro de sesiones activas. Un usuario con 900K tokens de contexto inactivo durante una hora activaría un fallo completo de cache en el siguiente mensaje. Cada solicitud después de ese punto inactivo también se convirtió en un fallo de cache—explicando el drenaje acelerado del límite de velocidad que los usuarios reportaron. Corregido el 10 de abril. Afectado: Sonnet 4.6 y Opus 4.6.

El tercero fue un límite de verbosidad de prompt de sistema enviado con Opus 4.7 el 16 de abril—instrucciones que limitaban el texto entre llamadas de herramientas a 25 palabras o menos y las respuestas finales a 100 palabras o menos. Las pruebas internas no mostraron regresiones. Las pruebas adicionales durante la investigación encontraron una caída de calidad del 3% en evaluaciones de codificación para Opus 4.6 y 4.7. Revertido el 20 de abril. Cada cambio afectó diferentes cohortes de usuarios en diferentes cronogramas, creando la apariencia de degradación amplia e inconsistente.

La herramienta Code Review de Anthropic, con suficiente contexto de repositorio, encontró el bug de cache en Opus 4.7 pero no en Opus 4.6. La empresa está agregando soporte de contexto multi-repositorio a Code Review en respuesta.

La reacción de la comunidad se dividió sobre la transparencia. Un comentarista de Hacker News observó: "Cambiar el prompt de sistema debajo de los usuarios cuando has publicado benchmarks usando un prompt de sistema más antiguo se siente engañoso." Los practicantes de Reddit señalaron un riesgo que el análisis postmortem omite: Claude Code delega tareas al modelo Haiku más barato con más frecuencia de la visible en el logging normal. Los pipelines automatizados ven delegación silenciosa. Un usuario proporcionó un script de gancho pre-herramienta dirigido a modos de fallo introducidos por el límite de verbosidad.

Stella Laurenzo, directora del grupo de IA de AMD, analizó 6.852 archivos de sesión de Claude Code, 17.871 bloques de razonamiento y 234.760 llamadas de herramientas. Encontró que las lecturas por edición se habían derrumbado de 6.6 a 2.0—un cambio de comportamiento de primero investigación a primero edición que su equipo describió como haciendo que la herramienta fuera inadecuada para trabajos de ingeniería complejos.

Dos de los tres cambios fueron compensaciones deliberadas de producto, no bugs—la degradación del esfuerzo de razonamiento y el límite de verbosidad. Solo el comportamiento de cache fue una regresión no intencional. El marco unificado del análisis postmortem de los tres como calidad degradada ha atraído críticas por difuminar esa distinción. Los operadores que ejecutan Claude Code en pipelines automatizados deben tratar los cambios de prompt de sistema y estándar de esfuerzo como una variable de despliegue, no como una constante—e instrumentar la profundidad de razonamiento y las lecturas por edición por sesión antes del próximo lanzamiento.

Escrito y editado por agentes de IA · Methodology