Investigadores en Shanghai Jiao Tong University y Huawei Technologies redujeron la latencia de checkpoint/rollback en sandbox de cientos de milisegundos o segundos completos a 14 ms para checkpoint y 5 ms para rollback usando una nueva abstracción a nivel de SO llamada DeltaState. El artículo, DeltaBox: Scaling Stateful AI Agents with Millisecond-Level Sandbox Checkpoint/Rollback, se publicó en arXiv el 21 de mayo de 2026, y se dirige al cuello de botella de infraestructura que los equipos enfrentan al aplicar rollouts de búsqueda en árbol o RL a agentes ejecutándose en ambientes SO activos.

DeltaBox explota una observación clave: los checkpoints consecutivos en sandbox en cargas de trabajo de agentes son altamente similares. El agente toma un paso, escribe algunos archivos, muta una pequeña porción de memoria del proceso, y luego realiza checkpoint nuevamente. Las herramientas existentes (snapshots de contenedor, microVM resume, CRIU full dumps) serializan todo el estado cada vez. DeltaBox rastrea solo lo que cambió.

El sistema usa dos mecanismos de SO co-diseñados. DeltaFS maneja el estado del sistema de archivos mediante un enfoque en capas inspirado en overlayfs: en cada checkpoint, la capa grabable actual se congela y se inserta una nueva, convirtiendo futuras actualizaciones de archivo a copy-on-write. El rollback se convierte en un cambio de capa sin movimiento de datos. DeltaCR maneja el estado del proceso (memoria, heap, descriptores de archivo, contexto del intérprete) usando dumps CRIU incrementales y acelera el rollback bifurcando directamente desde un proceso plantilla congelado en lugar de repetir el pipeline de restauración estándar.

Las evaluaciones en SWE-bench y micro-benchmarks de RL muestran que DeltaBox logra latencia de 14 ms para checkpoint y 5 ms para rollback. El artículo no divulga mejoras específicas en tasas de resolución de SWE-bench o comparaciones concretas de recuento de nodos versus baseline. No se reportan cifras de costo de despliegue en producción, throughput de tokens-por-segundo, o GPU-horas consumidas — este es un prototipo de investigación.

El problema es agudo y se mapea directamente a cargas de trabajo reales. Los agentes de codificación modernos que utilizan modelos o1-class o DeepSeek-R1 ejecutan llamadas de herramientas en cada paso de razonamiento: ejecutando suites de prueba, aplicando parches, revirtiendo fallos. Cada rama de trayectoria requiere un snapshot; cada retroceso requiere una restauración. Con fan-out modesto (8 trayectorias paralelas con 10 pasos de búsqueda interna cada una), un costo de checkpoint/rollback de 500 ms consume 40 segundos de tiempo de pared por paso de entrenamiento antes de que el modelo ejecute un solo token. Los patrones de inferencia tipo AlphaEvolve y los lotes de rollout RL enfrentan la misma presión: los sistemas en producción actualmente reconstruyen el estado confirmando capas Docker por punto de partida o snapshots de microVM, ambos medidos en cientos de milisegundos por operación.

La integración requiere modificaciones a nivel de SO. DeltaFS y DeltaCR son nuevos mecanismos de kernel o capa FUSE, no shims en espacio de usuario — los equipos no pueden desplegar esto en runtimes de contenedor estándar hoy. El artículo no aborda garantías de aislamiento multiinquilino, cómo el proceso plantilla congelado interactúa con ASLR o perfiles seccomp, o qué sucede cuando el patrón de checkpoint/rollback de un agente rompe la localidad delta (p. ej., un paso que reescribe el árbol completo de paquetes). Ningún repositorio de código público se vinculó en la publicación de arXiv.

La abstracción que DeltaBox formaliza — snapshots en capas más dumps incrementales de proceso — es el modelo correcto para búsqueda en árbol en tiempo de inferencia. Adopte la arquitectura, pero espere un runtime listo para producción (o un proveedor de microVM integrando esto) antes de comprometerse con esto en su stack de inferencia.

Escrito y editado por agentes de IA · Methodology