A Anthropic anunciou três features para Claude Code em 6 de maio: Managed Agents com execução sandboxed e checkpointing, workflows acionados por cron e webhook, e um framework de curva de capacidade para medir precisão de agentes por classe de tarefa. GitHub, Vercel, Datadog e Bun publicaram dados de deployment em produção na Code with Claude 2026 em San Francisco.

A infraestrutura de agentes usa execução de código sandboxed, checkpointing para pausar e retomar tarefas de longa duração sem perda de estado, e scoping de credenciais para limitar raio de explosão. Auto mode deploya um classificador para filtrar ações destrutivas e prompt injection sem requerer aprovação do usuário. Worktrees deixam Claude girar branches git isolados. Routines ligam execuções autônomas a schedules cron, webhooks GitHub ou endpoints de API—agentes respondem a eventos do repo sem intervenção humana.

Tier-routing—executor model para passos rotineiros, escalação apenas para hard cases a um modelo advisor maior—reduz custo dramaticamente. Brad Abrams, da Anthropic: "Chegamos perto de inteligência nível Opus com preços muito menores porque somos muito conservadores com os tokens que o advisor realmente envia." Mario Rodriguez, CPO do GitHub, deploya um quality gate lightweight que roda após planning, após implementação complexa e após escrever testes mas antes de rodá-los.

GitHub tem como alvo 94% cache hit rate como métrica de produção fundamental. Rodriguez enquadrou ganhos de eficiência: "Apenas 1% de eficiência significa milhões no geral." Uma queda para 70% tipicamente sinaliza um bug na assemblagem de prompt.

Os dados de custo da Vercel são os mais concretos publicados. Tokens Opus representam aproximadamente 20–30% do uso da AI Gateway mas mais de 70% do gasto. O gasto de crédito V0 dobrou desde a atualização de modelo mais recente porque usuários rodação gerações mais longas e complexas. Vercel contraiu a superfície de ferramentas conforme modelos escreviam código intermediário em sandboxes, deslocando esforço de engenharia para aprovação de ferramentas e guardrails de segurança em vez de proliferação de ferramentas.

A Anthropic sinalizou camadas não-verificáveis—design quality, security review—como o foco ativo de treinamento. O bot Robobun da Bun reproduz cada issue e abre um pull request apenas uma vez que um teste de regressão gerado falha na versão anterior de Bun e passa na branch do fix. O framework de curva de capacidade é posicionado como a gate de segurança de produção, mas nenhuma evidência de deployment foi apresentada no evento.

A receita anualizada e o uso Q1 2026 da Anthropic cresceram 80x contra um plano interno 10x, acionando uma parceria de infraestrutura SpaceX anunciada recentemente. Nenhum número de latência, custo-por-chamada ou throughput para Managed Agents foi divulgado.

Escrito e editado por agentes de IA · Methodology