DeltaBox reduz latência de checkpoint de agentes IA para 14 milissegundos

Agentes IA com estado executando busca em árvore no tempo de inferência e RL requerem checkpoint/rollback frequente em sandbox, mas os métodos atuais levam 100s de ms a segundos por C/R. DeltaBox atinge latência de milissegundos via snapshots baseados em delta, desbloqueando busca profunda e fan-outs grandes. Ângulo de implantação: teste de escalabilidade em tempo de inferência agora é viável com velocidade em nível de sandbox — arquitetos podem implantar agentes de escalabilidade em tempo de inferência sem reformulação de infraestrutura.

Pesquisadores na Shanghai Jiao Tong University e Huawei Technologies reduziram a latência de checkpoint/rollback em sandbox de centenas de milissegundos ou segundos completos para 14 ms de checkpoint e 5 ms de rollback usando uma nova abstração em nível de OS chamada DeltaState. O artigo, DeltaBox: Scaling Stateful AI Agents with Millisecond-Level Sandbox Checkpoint/Rollback, foi postado no arXiv em 21 de maio de 2026, e se destina ao gargalo de infraestrutura que os times enfrentam ao aplicar rollouts de busca em árvore ou RL a agentes rodando em ambientes OS ao vivo.

DeltaBox explora uma observação-chave: checkpoints consecutivos em sandbox em cargas de trabalho de agentes são altamente similares. O agente toma um passo, escreve alguns arquivos, muta uma pequena porção de memória do processo, e então faz checkpoint novamente. As ferramentas existentes (snapshots de container, microVM resume, CRIU full dumps) serializam o estado inteiro sempre. DeltaBox rastreia apenas o que mudou.

O sistema usa dois mecanismos de OS co-projetados. DeltaFS lida com estado de sistema de arquivos via uma abordagem em camadas inspirada por overlayfs: em cada checkpoint, a camada gravável atual é congelada e uma nova é inserida, convertendo futuras atualizações de arquivo para copy-on-write. Rollback se torna uma troca de camada sem movimento de dados. DeltaCR lida com estado do processo (memória, heap, descritores de arquivo, contexto de interpretador) usando dumps CRIU incrementais e acelera rollback fazendo fork direto de um processo modelo congelado em vez de repetir o pipeline padrão de restauração.

Avaliações em SWE-bench e micro-benchmarks de RL mostram DeltaBox atingindo latência de 14 ms de checkpoint e 5 ms de rollback. O artigo não divulga melhorias específicas de taxa de resolução de SWE-bench ou comparações de contagem de nó concretas versus baseline. Nenhuma figura de custo de implantação em produção, throughput de tokens-por-segundo, ou GPU-horas consumidas são relatados — este é um protótipo de pesquisa.

O problema é agudo e mapeia diretamente em cargas de trabalho reais. Agentes de codificação modernos usando modelos o1-class ou DeepSeek-R1 executam chamadas de tool em cada passo de raciocínio: rodando suites de teste, aplicando patches, revertendo falhas. Cada branch de trajetória requer um snapshot; cada backtrack requer uma restauração. Com fan-out modesto (8 trajetórias paralelas com 10 passos de busca interna cada), um custo de checkpoint/rollback de 500 ms consome 40 segundos de tempo de parede por passo de treinamento antes do modelo rodar um único token. Padrões de inferência do tipo AlphaEvolve e batches de rollout RL enfrentam a mesma pressão: sistemas em produção atualmente reconstruem estado commitando camadas Docker por ponto de partida ou snapshots de microVM, ambos medidos em centenas de milissegundos por operação.

A integração requer modificações em nível de OS. DeltaFS e DeltaCR são novos mecanismos de kernel ou FUSE-layer, não shims em espaço de usuário — os times não podem implantar isto em runtimes de container padrão hoje. O artigo não aborda garantias de isolamento multi-tenant, como o processo modelo congelado interage com ASLR ou perfis seccomp, ou o que acontece quando o padrão de checkpoint/rollback de um agente quebra a localidade delta (ex: um passo que reescreve a árvore inteira de pacotes). Nenhum repositório de código público foi linkado no posting arXiv.

A abstração que DeltaBox formaliza — snapshots em camadas mais dumps incrementais de processo — é o modelo certo para busca em árvore em tempo de inferência. Adote a arquitetura, mas espere por um runtime pronto para produção (ou um vendor de microVM integrando isto) antes de se comprometer com isto em sua stack de inferência.

Sources

DeltaBox completes checkpoint in 14 ms and rollback in 5 ms
"DeltaBox completes checkpoint and rollback in millisecond-level latency (14 ms and 5 ms, respectively)"
arxiv.org ↗
Existing C/R mechanisms cause hundreds of milliseconds to seconds of latency per operation
"Existing mechanisms duplicate the entire state, causing hundreds of milliseconds to seconds of latency per C/R, which severely bottlenecks deep search and large-scale fan-outs."
arxiv.org ↗
DeltaFS freezes the writable layer and inserts a new one on checkpoint, converting file updates to copy-on-write, making rollback a layer switch
"DeltaFS enables change-based filesystem C/R by organizing the file states into layers and dynamically freezing the writable layer and inserting a new one during checkpoint, reducing file updates to copy-on-write, and making rollback a simple layer switch."
arxiv.org ↗
DeltaCR uses incremental CRIU dumps and forks directly from a frozen template process for rollback
"DeltaCR enables change-based process state C/R using incremental dumps, and accelerates rollback by bypassing traditional pipelines to directly fork() from a frozen template process."
arxiv.org ↗
DeltaBox empowers agents to explore substantially more nodes under fixed time budgets
"empowering agents to explore substantially more nodes under fixed time budgets"
arxiv.org ↗
Production RL systems rebuild warm state by committing a Docker layer per starting state and running a fresh container per rollout, or by snapshotting and resuming a microVM per rollout
"Today's deployed approaches rebuild this warm state by either committing a Docker layer per starting state and running a fresh container per rollout (latency dominated by container start and image pull), or by snapshotting and resuming a microVM per rollout (latency dominated by guest memory pre-touch and device re-attach)."
arxiv.org ↗
Consecutive checkpoints in AI agent workloads are highly similar; only the changes between them need to be captured
"This paper observes that subsequent checkpoints in AI agents are highly similar. Therefore, instead of full duplication, a sandbox should only duplicate the changes between consecutive checkpoints"
arxiv.org ↗
DeltaBox is evaluated on SWE-bench and RL micro-benchmarks
"Evaluations on SWE-bench and RL micro-benchmarks show DeltaBox completes checkpoint and rollback in millisecond-level latency"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

DeltaBox reduz latência de checkpoint de agentes IA para 14 milissegundos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.