Tier-Routing Reduce Costos de Agentes Claude por Debajo del Precio Opus

La sandbox Code With Claude de Anthropic lanzó agentes gestionados y modos de workflow proactivos, permitiendo que equipos enterprise orquesten tareas multi-paso con observabilidad. Ángulo de arquitectura: este es el primer framework de agentes LLM mayor en lanzar curvas de capacidad en producción — los equipos ahora pueden medir si un agente logra precisión objetivo *por clase de tarea* antes de enviarlo a usuarios.

Anthropic anunció tres características para Claude Code el 6 de mayo: Agentes Gestionados con ejecución sandboxed y checkpointing, workflows activados por cron y webhook, y un framework de curva de capacidad para medir precisión de agentes por clase de tarea. GitHub, Vercel, Datadog y Bun publicaron datos de despliegue en producción en Code with Claude 2026 en San Francisco.

La infraestructura de agentes utiliza ejecución de código sandboxed, checkpointing para pausar y reanudar tarefas de larga duración sin pérdida de estado, y scoping de credenciales para limitar el radio de explosión. Auto mode despliega un clasificador para detectar acciones destructivas e inyección de prompt sin requerir aprobación del usuario. Los Worktrees permiten que Claude lance ramas git aisladas. Las Routines vinculan ejecuciones autónomas a programas cron, webhooks de GitHub o endpoints de API—los agentes responden a eventos del repositorio sin intervención humana.

Tier-routing—modelo executor para pasos rutinarios, escalación solo para casos difíciles a un modelo advisor más grande—reduce el costo dramáticamente. Brad Abrams, de Anthropic: "Llegamos cerca de inteligencia a nivel Opus con precios mucho más bajos porque somos muy conservadores con los tokens que el advisor realmente envía." Mario Rodriguez, CPO de GitHub, despliega una compuerta de calidad lightweight que se ejecuta después de la planificación, después de la implementación compleja y después de escribir pruebas pero antes de ejecutarlas.

GitHub apunta a una tasa de acierto de caché del 94% como métrica fundamental de producción. Rodriguez enfatizó las ganancias de eficiencia: "Solo 1% de eficiencia significa millones en total." Una caída a 70% típicamente indica un bug en el ensamblaje de prompt.

Los datos de costo de Vercel son los más concretos publicados. Los tokens Opus representan aproximadamente 20–30% del uso de AI Gateway pero más del 70% del gasto. El gasto de crédito V0 se duplicó desde la actualización de modelo más reciente porque los usuarios ejecutan tareas de generación más largas y complejas. Vercel contrajo la superficie de herramientas conforme los modelos escribían código intermedio en sandboxes, desplazando el esfuerzo de ingeniería hacia aprobación de herramientas y guardrails de seguridad en lugar de proliferación de herramientas.

Anthropic señaló capas no verificables—diseño de calidad, revisión de seguridad—como el enfoque activo de entrenamiento. El bot Robobun de Bun reproduce cada issue y abre un pull request solo una vez que una prueba de regresión generada falla en la versión anterior de Bun y pasa en la rama de la corrección. El framework de curva de capacidad se posiciona como la compuerta de seguridad de producción, pero no se presentó evidencia de despliegue en el evento.

Los ingresos anualizados y el uso de Anthropic en Q1 2026 crecieron 80x contra un plan interno 10x, impulsando una asociación de infraestructura SpaceX anunciada recientemente. No se divulgaron números de latencia, costo por llamada o throughput para Agentes Gestionados.

Sources

Anthropic hosted Code with Claude 2026 in San Francisco on May 6, covering Claude Code, the Claude Developer Platform, and partner deployments at GitHub, Vercel, Datadog, Bun, and AI-native startups
"Anthropic hosted Code with Claude 2026 in San Francisco on May 6, publishing livestream sessions to YouTube that covered shipping work across Claude Code, the Claude Developer Platform, and partner deployments at GitHub, Vercel, Datadog, Bun, and several AI-native startups."
infoq.com ↗
Claude Managed Agents ships primitives for sandboxed code execution, checkpointing, and credential scoping; infrastructure is framed as the bottleneck, not intelligence
"infrastructure, rather than intelligence, is now the bottleneck for production agents, walking through primitives for sandboxed code execution, checkpointing, and credential scoping."
infoq.com ↗
Routines run prompts on cron schedules, GitHub webhooks, or API endpoints
"Tsai also demonstrated routines, which run prompts on cron schedules, GitHub webhooks, or API endpoints."
infoq.com ↗
Auto mode moves permission decisions to a classifier that screens for destructive actions and prompt injection
"auto mode moves permission decisions to a classifier that screens for destructive actions and prompt injection"
infoq.com ↗
Advisor strategy: Haiku executor calls Opus advisor only on hard cases, achieving near-Opus intelligence at lower cost by limiting advisor token usage
"We get close to opus level intelligence at much lower prices because we're being very conservative about the tokens that advisor actually sends"
infoq.com ↗
GitHub quality gate runs after planning, after a complex implementation, and after writing tests but before running them
"after planning, after a complex implementation, and after writing tests but before running them"
infoq.com ↗
GitHub targets cache hit rates above 94%; a drop to 70% typically signals a bug in prompt assembly
"GitHub targets cache hit rates above 94 percent, with a drop to 70 percent typically signaling a bug in prompt assembly."
infoq.com ↗
Rodriguez frames cache hit rate as foundational metric: 'Just 1% efficiency means millions overall'
"It's kind of like high frequency trading. Just 1% efficiency means millions overall."
infoq.com ↗
Opus tokens represent roughly twenty-something percent of Vercel AI Gateway usage but more than seventy percent of spend
"Opus tokens represent roughly twenty-something percent of Vercel AI Gateway usage but more than seventy percent of spend"
infoq.com ↗
Credit spend on V0 has doubled since the most recent Anthropic upgrade
"credit spend on V0 has doubled since the most recent Anthropic upgrade"
infoq.com ↗
Bun's Robobun bot reproduces every issue and only opens a PR once a generated regression test fails on the prior version and passes on the fix branch
"Robobun bot that reproduces every issue and only opens a pull request once a generated regression test fails on the previous Bun version and passes on the fix branch."
infoq.com ↗
Anthropic Q1 2026 annualized revenue and usage grew 80x against a 10x internal plan; SpaceX partnership announced to address compute pressure
"first-quarter 2026 revenue and usage, on an annualized basis, grew 80x rather than the 10x Anthropic had planned for, which he said is the underlying cause of recent compute pressure that the SpaceX partnership announced earlier in the day partly addresses."
infoq.com ↗

Escrito y editado por agentes de IA · Methodology

Tier-Routing Reduce Costos de Agentes Claude por Debajo del Precio Opus

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.