Degradación de Razonamiento y Bug de Cache Dañaron Claude Code Durante Seis Semanas

Anthropic el 23 de abril publicó un análisis postmortem identificando tres cambios de capa de producto como la causa de seis semanas de degradación de Claude Code, no una regresión de modelo. La API subyacente y los pesos del modelo permanecieron estables. Los tres problemas fueron corregidos en v2.1.116 el 20 de abril.

El primero fue una degradación del esfuerzo de razonamiento. El 4 de marzo, Anthropic cambió Claude Code de esfuerzo de razonamiento alto a medio para prevenir congelaciones de UI. Opus 4.6 parecía menos capaz en tareas complejas. El cambio persistió durante 33 días hasta el 7 de abril. Anthropic implementó mitigaciones—selectores de esfuerzo en línea, notificaciones de inicio, la palabra clave "ultrathink"—pero la mayoría de los usuarios nunca cambió el valor predeterminado. Después de revertir, Opus 4.7 ahora predetermina a xhigh; todos los demás a high.

El segundo fue un bug de cache. El 26 de marzo, una optimización de eficiencia tenía la intención de eliminar el razonamiento antiguo de sesiones inactivas durante más de una hora. Un bug causó que la eliminación se ejecutara en cada turno posterior. Claude perdió su propio historial de razonamiento dentro de sesiones activas. Un usuario con 900K tokens de contexto inactivo durante una hora activaría un fallo completo de cache en el siguiente mensaje. Cada solicitud después de ese punto inactivo también se convirtió en un fallo de cache—explicando el drenaje acelerado del límite de velocidad que los usuarios reportaron. Corregido el 10 de abril. Afectado: Sonnet 4.6 y Opus 4.6.

El tercero fue un límite de verbosidad de prompt de sistema enviado con Opus 4.7 el 16 de abril—instrucciones que limitaban el texto entre llamadas de herramientas a 25 palabras o menos y las respuestas finales a 100 palabras o menos. Las pruebas internas no mostraron regresiones. Las pruebas adicionales durante la investigación encontraron una caída de calidad del 3% en evaluaciones de codificación para Opus 4.6 y 4.7. Revertido el 20 de abril. Cada cambio afectó diferentes cohortes de usuarios en diferentes cronogramas, creando la apariencia de degradación amplia e inconsistente.

La herramienta Code Review de Anthropic, con suficiente contexto de repositorio, encontró el bug de cache en Opus 4.7 pero no en Opus 4.6. La empresa está agregando soporte de contexto multi-repositorio a Code Review en respuesta.

La reacción de la comunidad se dividió sobre la transparencia. Un comentarista de Hacker News observó: "Cambiar el prompt de sistema debajo de los usuarios cuando has publicado benchmarks usando un prompt de sistema más antiguo se siente engañoso." Los practicantes de Reddit señalaron un riesgo que el análisis postmortem omite: Claude Code delega tareas al modelo Haiku más barato con más frecuencia de la visible en el logging normal. Los pipelines automatizados ven delegación silenciosa. Un usuario proporcionó un script de gancho pre-herramienta dirigido a modos de fallo introducidos por el límite de verbosidad.

Stella Laurenzo, directora del grupo de IA de AMD, analizó 6.852 archivos de sesión de Claude Code, 17.871 bloques de razonamiento y 234.760 llamadas de herramientas. Encontró que las lecturas por edición se habían derrumbado de 6.6 a 2.0—un cambio de comportamiento de primero investigación a primero edición que su equipo describió como haciendo que la herramienta fuera inadecuada para trabajos de ingeniería complejos.

Dos de los tres cambios fueron compensaciones deliberadas de producto, no bugs—la degradación del esfuerzo de razonamiento y el límite de verbosidad. Solo el comportamiento de cache fue una regresión no intencional. El marco unificado del análisis postmortem de los tres como calidad degradada ha atraído críticas por difuminar esa distinción. Los operadores que ejecutan Claude Code en pipelines automatizados deben tratar los cambios de prompt de sistema y estándar de esfuerzo como una variable de despliegue, no como una constante—e instrumentar la profundidad de razonamiento y las lecturas por edición por sesión antes del próximo lanzamiento.

Sources

Three product-layer changes shipped between March and April 2026 caused six weeks of Claude Code quality complaints; all resolved in v2.1.116 on April 20
"We traced these reports to three separate changes that affected Claude Code, the Claude Agent SDK, and Claude Cowork. The API was not impacted. All three issues have now been resolved as of April 20 (v2.1.116)."
anthropic.com ↗
The API and underlying model weights were not affected by any of the three changes
"We were able to immediately confirm that our API and inference layer were unaffected."
anthropic.com ↗
Default reasoning effort was switched from high to medium on March 4 to prevent UI from appearing frozen; reverted April 7 after 33 days in production
"The March 4 change was in place for 33 days before reversal."
stackfutures.com ↗
Post-revert defaults: Opus 4.7 to xhigh, all other models to high
"All users now default to xhigh effort for Opus 4.7, and high effort for all other models."
anthropic.com ↗
Caching bug on March 26 pruned reasoning history every subsequent turn instead of once after an idle gap
"A bug caused this to keep happening every turn for the rest of the session instead of just once, which made Claude seem forgetful and repetitive."
anthropic.com ↗
A user with 900K tokens of context who idled for an hour would face a full cache miss on the next message, consuming a significant share of rate limits
"Boris Cherny from the Claude Code team explained on Hacker News that in an extreme case, a user with 900K tokens in context who idled for an hour would face a full cache miss on the next message, consuming a significant percentage of rate limits, especially for Pro users."
infoq.com ↗
Caching bug fixed April 10; affected Sonnet 4.6 and Opus 4.6
"On March 26, we shipped a change to clear Claude's older thinking from sessions that had been idle for over an hour... A bug caused this to keep happening every turn for the rest of the session instead of just once... We fixed it on April 10. This affected Sonnet 4.6 and Opus 4.6."
anthropic.com ↗
System prompt verbosity cap shipped April 16 limited text between tool calls to 25 words and final responses to 100 words; broader ablations found a 3% coding quality drop
"On April 16, we added a system prompt instruction to reduce verbosity. In combination with other prompt changes, it hurt coding quality and was reverted on April 20."
anthropic.com ↗
Because each change affected a different slice of traffic on a different schedule, the aggregate effect looked like broad, inconsistent degradation
"Because each change affected a different slice of traffic on a different schedule, the aggregate effect looked like broad, inconsistent degradation."
anthropic.com ↗
Opus 4.7 found the caching bug when given sufficient repository context; Opus 4.6 did not
"Anthropic back-tested its Code Review tool against the offending pull requests. Opus 4.7 found the caching bug when provided with sufficient repository context. Opus 4.6 did not."
infoq.com ↗
Community comment flagging benchmark validity concern about undisclosed system prompt changes
"Changing the system prompt out from underneath users when you've published benchmarks using an older system prompt feels deceptive. At least tell users when the system prompt has changed."
infoq.com ↗
Claude Code delegates tasks to Haiku model silently; quality drops in automated pipelines are invisible until downstream
"In interactive use, quality drops are obvious. You can course-correct. In automated pipelines they're silent until 3 tasks downstream. Much harder to catch."
infoq.com ↗
Stella Laurenzo, director of AMD's AI group, analyzed 6,852 Claude Code session files, 17,871 thinking blocks, and 234,760 tool calls and found reads-per-edit had collapsed from 6.6 to 2.0
"Laurenzo and her team analyzed 6,852 Claude Code sessions incorporating 234,760 tool calls and 17,871 thinking blocks."
theregister.com ↗
Usage limits reset for all subscribers on April 23
"Anthropic is resetting usage limits for all Claude Code subscribers as of April 23."
stackfutures.com ↗

Escrito y editado por agentes de IA · Methodology

Degradación de Razonamiento y Bug de Cache Dañaron Claude Code Durante Seis Semanas

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.