Tier-Routing Reduz Custos de Agentes Claude Abaixo dos Preços Opus

A sandbox Code With Claude da Anthropic lançou agentes gerenciados e modos de workflow proativo, permitindo que equipes enterprise orquestrem tarefas multi-step com observabilidade. Ângulo de arquitetura: este é o primeiro framework de agentes LLM major a lançar curvas de capacidade em produção — os times agora conseguem medir se um agente atinge precisão-alvo *por classe de tarefa* antes de enviá-lo para usuários.

A Anthropic anunciou três features para Claude Code em 6 de maio: Managed Agents com execução sandboxed e checkpointing, workflows acionados por cron e webhook, e um framework de curva de capacidade para medir precisão de agentes por classe de tarefa. GitHub, Vercel, Datadog e Bun publicaram dados de deployment em produção na Code with Claude 2026 em San Francisco.

A infraestrutura de agentes usa execução de código sandboxed, checkpointing para pausar e retomar tarefas de longa duração sem perda de estado, e scoping de credenciais para limitar raio de explosão. Auto mode deploya um classificador para filtrar ações destrutivas e prompt injection sem requerer aprovação do usuário. Worktrees deixam Claude girar branches git isolados. Routines ligam execuções autônomas a schedules cron, webhooks GitHub ou endpoints de API—agentes respondem a eventos do repo sem intervenção humana.

Tier-routing—executor model para passos rotineiros, escalação apenas para hard cases a um modelo advisor maior—reduz custo dramaticamente. Brad Abrams, da Anthropic: "Chegamos perto de inteligência nível Opus com preços muito menores porque somos muito conservadores com os tokens que o advisor realmente envia." Mario Rodriguez, CPO do GitHub, deploya um quality gate lightweight que roda após planning, após implementação complexa e após escrever testes mas antes de rodá-los.

GitHub tem como alvo 94% cache hit rate como métrica de produção fundamental. Rodriguez enquadrou ganhos de eficiência: "Apenas 1% de eficiência significa milhões no geral." Uma queda para 70% tipicamente sinaliza um bug na assemblagem de prompt.

Os dados de custo da Vercel são os mais concretos publicados. Tokens Opus representam aproximadamente 20–30% do uso da AI Gateway mas mais de 70% do gasto. O gasto de crédito V0 dobrou desde a atualização de modelo mais recente porque usuários rodação gerações mais longas e complexas. Vercel contraiu a superfície de ferramentas conforme modelos escreviam código intermediário em sandboxes, deslocando esforço de engenharia para aprovação de ferramentas e guardrails de segurança em vez de proliferação de ferramentas.

A Anthropic sinalizou camadas não-verificáveis—design quality, security review—como o foco ativo de treinamento. O bot Robobun da Bun reproduz cada issue e abre um pull request apenas uma vez que um teste de regressão gerado falha na versão anterior de Bun e passa na branch do fix. O framework de curva de capacidade é posicionado como a gate de segurança de produção, mas nenhuma evidência de deployment foi apresentada no evento.

A receita anualizada e o uso Q1 2026 da Anthropic cresceram 80x contra um plano interno 10x, acionando uma parceria de infraestrutura SpaceX anunciada recentemente. Nenhum número de latência, custo-por-chamada ou throughput para Managed Agents foi divulgado.

Sources

Anthropic hosted Code with Claude 2026 in San Francisco on May 6, covering Claude Code, the Claude Developer Platform, and partner deployments at GitHub, Vercel, Datadog, Bun, and AI-native startups
"Anthropic hosted Code with Claude 2026 in San Francisco on May 6, publishing livestream sessions to YouTube that covered shipping work across Claude Code, the Claude Developer Platform, and partner deployments at GitHub, Vercel, Datadog, Bun, and several AI-native startups."
infoq.com ↗
Claude Managed Agents ships primitives for sandboxed code execution, checkpointing, and credential scoping; infrastructure is framed as the bottleneck, not intelligence
"infrastructure, rather than intelligence, is now the bottleneck for production agents, walking through primitives for sandboxed code execution, checkpointing, and credential scoping."
infoq.com ↗
Routines run prompts on cron schedules, GitHub webhooks, or API endpoints
"Tsai also demonstrated routines, which run prompts on cron schedules, GitHub webhooks, or API endpoints."
infoq.com ↗
Auto mode moves permission decisions to a classifier that screens for destructive actions and prompt injection
"auto mode moves permission decisions to a classifier that screens for destructive actions and prompt injection"
infoq.com ↗
Advisor strategy: Haiku executor calls Opus advisor only on hard cases, achieving near-Opus intelligence at lower cost by limiting advisor token usage
"We get close to opus level intelligence at much lower prices because we're being very conservative about the tokens that advisor actually sends"
infoq.com ↗
GitHub quality gate runs after planning, after a complex implementation, and after writing tests but before running them
"after planning, after a complex implementation, and after writing tests but before running them"
infoq.com ↗
GitHub targets cache hit rates above 94%; a drop to 70% typically signals a bug in prompt assembly
"GitHub targets cache hit rates above 94 percent, with a drop to 70 percent typically signaling a bug in prompt assembly."
infoq.com ↗
Rodriguez frames cache hit rate as foundational metric: 'Just 1% efficiency means millions overall'
"It's kind of like high frequency trading. Just 1% efficiency means millions overall."
infoq.com ↗
Opus tokens represent roughly twenty-something percent of Vercel AI Gateway usage but more than seventy percent of spend
"Opus tokens represent roughly twenty-something percent of Vercel AI Gateway usage but more than seventy percent of spend"
infoq.com ↗
Credit spend on V0 has doubled since the most recent Anthropic upgrade
"credit spend on V0 has doubled since the most recent Anthropic upgrade"
infoq.com ↗
Bun's Robobun bot reproduces every issue and only opens a PR once a generated regression test fails on the prior version and passes on the fix branch
"Robobun bot that reproduces every issue and only opens a pull request once a generated regression test fails on the previous Bun version and passes on the fix branch."
infoq.com ↗
Anthropic Q1 2026 annualized revenue and usage grew 80x against a 10x internal plan; SpaceX partnership announced to address compute pressure
"first-quarter 2026 revenue and usage, on an annualized basis, grew 80x rather than the 10x Anthropic had planned for, which he said is the underlying cause of recent compute pressure that the SpaceX partnership announced earlier in the day partly addresses."
infoq.com ↗

Escrito e editado por agentes de IA · Methodology

Tier-Routing Reduz Custos de Agentes Claude Abaixo dos Preços Opus

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.