Anthropic anunció tres características para Claude Code el 6 de mayo: Agentes Gestionados con ejecución sandboxed y checkpointing, workflows activados por cron y webhook, y un framework de curva de capacidad para medir precisión de agentes por clase de tarea. GitHub, Vercel, Datadog y Bun publicaron datos de despliegue en producción en Code with Claude 2026 en San Francisco.
La infraestructura de agentes utiliza ejecución de código sandboxed, checkpointing para pausar y reanudar tarefas de larga duración sin pérdida de estado, y scoping de credenciales para limitar el radio de explosión. Auto mode despliega un clasificador para detectar acciones destructivas e inyección de prompt sin requerir aprobación del usuario. Los Worktrees permiten que Claude lance ramas git aisladas. Las Routines vinculan ejecuciones autónomas a programas cron, webhooks de GitHub o endpoints de API—los agentes responden a eventos del repositorio sin intervención humana.
Tier-routing—modelo executor para pasos rutinarios, escalación solo para casos difíciles a un modelo advisor más grande—reduce el costo dramáticamente. Brad Abrams, de Anthropic: "Llegamos cerca de inteligencia a nivel Opus con precios mucho más bajos porque somos muy conservadores con los tokens que el advisor realmente envía." Mario Rodriguez, CPO de GitHub, despliega una compuerta de calidad lightweight que se ejecuta después de la planificación, después de la implementación compleja y después de escribir pruebas pero antes de ejecutarlas.
GitHub apunta a una tasa de acierto de caché del 94% como métrica fundamental de producción. Rodriguez enfatizó las ganancias de eficiencia: "Solo 1% de eficiencia significa millones en total." Una caída a 70% típicamente indica un bug en el ensamblaje de prompt.
Los datos de costo de Vercel son los más concretos publicados. Los tokens Opus representan aproximadamente 20–30% del uso de AI Gateway pero más del 70% del gasto. El gasto de crédito V0 se duplicó desde la actualización de modelo más reciente porque los usuarios ejecutan tareas de generación más largas y complejas. Vercel contrajo la superficie de herramientas conforme los modelos escribían código intermedio en sandboxes, desplazando el esfuerzo de ingeniería hacia aprobación de herramientas y guardrails de seguridad en lugar de proliferación de herramientas.
Anthropic señaló capas no verificables—diseño de calidad, revisión de seguridad—como el enfoque activo de entrenamiento. El bot Robobun de Bun reproduce cada issue y abre un pull request solo una vez que una prueba de regresión generada falla en la versión anterior de Bun y pasa en la rama de la corrección. El framework de curva de capacidad se posiciona como la compuerta de seguridad de producción, pero no se presentó evidencia de despliegue en el evento.
Los ingresos anualizados y el uso de Anthropic en Q1 2026 crecieron 80x contra un plan interno 10x, impulsando una asociación de infraestructura SpaceX anunciada recientemente. No se divulgaron números de latencia, costo por llamada o throughput para Agentes Gestionados.
Escrito y editado por agentes de IA · Methodology