DeltaBox reduce la latencia de checkpoint de agentes IA a 14 milisegundos

Investigadores en Shanghai Jiao Tong University y Huawei Technologies redujeron la latencia de checkpoint/rollback en sandbox de cientos de milisegundos o segundos completos a 14 ms para checkpoint y 5 ms para rollback usando una nueva abstracción a nivel de SO llamada DeltaState. El artículo, DeltaBox: Scaling Stateful AI Agents with Millisecond-Level Sandbox Checkpoint/Rollback, se publicó en arXiv el 21 de mayo de 2026, y se dirige al cuello de botella de infraestructura que los equipos enfrentan al aplicar rollouts de búsqueda en árbol o RL a agentes ejecutándose en ambientes SO activos.

DeltaBox explota una observación clave: los checkpoints consecutivos en sandbox en cargas de trabajo de agentes son altamente similares. El agente toma un paso, escribe algunos archivos, muta una pequeña porción de memoria del proceso, y luego realiza checkpoint nuevamente. Las herramientas existentes (snapshots de contenedor, microVM resume, CRIU full dumps) serializan todo el estado cada vez. DeltaBox rastrea solo lo que cambió.

El sistema usa dos mecanismos de SO co-diseñados. DeltaFS maneja el estado del sistema de archivos mediante un enfoque en capas inspirado en overlayfs: en cada checkpoint, la capa grabable actual se congela y se inserta una nueva, convirtiendo futuras actualizaciones de archivo a copy-on-write. El rollback se convierte en un cambio de capa sin movimiento de datos. DeltaCR maneja el estado del proceso (memoria, heap, descriptores de archivo, contexto del intérprete) usando dumps CRIU incrementales y acelera el rollback bifurcando directamente desde un proceso plantilla congelado en lugar de repetir el pipeline de restauración estándar.

Las evaluaciones en SWE-bench y micro-benchmarks de RL muestran que DeltaBox logra latencia de 14 ms para checkpoint y 5 ms para rollback. El artículo no divulga mejoras específicas en tasas de resolución de SWE-bench o comparaciones concretas de recuento de nodos versus baseline. No se reportan cifras de costo de despliegue en producción, throughput de tokens-por-segundo, o GPU-horas consumidas — este es un prototipo de investigación.

El problema es agudo y se mapea directamente a cargas de trabajo reales. Los agentes de codificación modernos que utilizan modelos o1-class o DeepSeek-R1 ejecutan llamadas de herramientas en cada paso de razonamiento: ejecutando suites de prueba, aplicando parches, revirtiendo fallos. Cada rama de trayectoria requiere un snapshot; cada retroceso requiere una restauración. Con fan-out modesto (8 trayectorias paralelas con 10 pasos de búsqueda interna cada una), un costo de checkpoint/rollback de 500 ms consume 40 segundos de tiempo de pared por paso de entrenamiento antes de que el modelo ejecute un solo token. Los patrones de inferencia tipo AlphaEvolve y los lotes de rollout RL enfrentan la misma presión: los sistemas en producción actualmente reconstruyen el estado confirmando capas Docker por punto de partida o snapshots de microVM, ambos medidos en cientos de milisegundos por operación.

La integración requiere modificaciones a nivel de SO. DeltaFS y DeltaCR son nuevos mecanismos de kernel o capa FUSE, no shims en espacio de usuario — los equipos no pueden desplegar esto en runtimes de contenedor estándar hoy. El artículo no aborda garantías de aislamiento multiinquilino, cómo el proceso plantilla congelado interactúa con ASLR o perfiles seccomp, o qué sucede cuando el patrón de checkpoint/rollback de un agente rompe la localidad delta (p. ej., un paso que reescribe el árbol completo de paquetes). Ningún repositorio de código público se vinculó en la publicación de arXiv.

La abstracción que DeltaBox formaliza — snapshots en capas más dumps incrementales de proceso — es el modelo correcto para búsqueda en árbol en tiempo de inferencia. Adopte la arquitectura, pero espere un runtime listo para producción (o un proveedor de microVM integrando esto) antes de comprometerse con esto en su stack de inferencia.

Sources

DeltaBox completes checkpoint in 14 ms and rollback in 5 ms
"DeltaBox completes checkpoint and rollback in millisecond-level latency (14 ms and 5 ms, respectively)"
arxiv.org ↗
Existing C/R mechanisms cause hundreds of milliseconds to seconds of latency per operation
"Existing mechanisms duplicate the entire state, causing hundreds of milliseconds to seconds of latency per C/R, which severely bottlenecks deep search and large-scale fan-outs."
arxiv.org ↗
DeltaFS freezes the writable layer and inserts a new one on checkpoint, converting file updates to copy-on-write, making rollback a layer switch
"DeltaFS enables change-based filesystem C/R by organizing the file states into layers and dynamically freezing the writable layer and inserting a new one during checkpoint, reducing file updates to copy-on-write, and making rollback a simple layer switch."
arxiv.org ↗
DeltaCR uses incremental CRIU dumps and forks directly from a frozen template process for rollback
"DeltaCR enables change-based process state C/R using incremental dumps, and accelerates rollback by bypassing traditional pipelines to directly fork() from a frozen template process."
arxiv.org ↗
DeltaBox empowers agents to explore substantially more nodes under fixed time budgets
"empowering agents to explore substantially more nodes under fixed time budgets"
arxiv.org ↗
Production RL systems rebuild warm state by committing a Docker layer per starting state and running a fresh container per rollout, or by snapshotting and resuming a microVM per rollout
"Today's deployed approaches rebuild this warm state by either committing a Docker layer per starting state and running a fresh container per rollout (latency dominated by container start and image pull), or by snapshotting and resuming a microVM per rollout (latency dominated by guest memory pre-touch and device re-attach)."
arxiv.org ↗
Consecutive checkpoints in AI agent workloads are highly similar; only the changes between them need to be captured
"This paper observes that subsequent checkpoints in AI agents are highly similar. Therefore, instead of full duplication, a sandbox should only duplicate the changes between consecutive checkpoints"
arxiv.org ↗
DeltaBox is evaluated on SWE-bench and RL micro-benchmarks
"Evaluations on SWE-bench and RL micro-benchmarks show DeltaBox completes checkpoint and rollback in millisecond-level latency"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

DeltaBox reduce la latencia de checkpoint de agentes IA a 14 milisegundos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.