Pesquisadores na Shanghai Jiao Tong University e Huawei Technologies reduziram a latência de checkpoint/rollback em sandbox de centenas de milissegundos ou segundos completos para 14 ms de checkpoint e 5 ms de rollback usando uma nova abstração em nível de OS chamada DeltaState. O artigo, DeltaBox: Scaling Stateful AI Agents with Millisecond-Level Sandbox Checkpoint/Rollback, foi postado no arXiv em 21 de maio de 2026, e se destina ao gargalo de infraestrutura que os times enfrentam ao aplicar rollouts de busca em árvore ou RL a agentes rodando em ambientes OS ao vivo.
DeltaBox explora uma observação-chave: checkpoints consecutivos em sandbox em cargas de trabalho de agentes são altamente similares. O agente toma um passo, escreve alguns arquivos, muta uma pequena porção de memória do processo, e então faz checkpoint novamente. As ferramentas existentes (snapshots de container, microVM resume, CRIU full dumps) serializam o estado inteiro sempre. DeltaBox rastreia apenas o que mudou.
O sistema usa dois mecanismos de OS co-projetados. DeltaFS lida com estado de sistema de arquivos via uma abordagem em camadas inspirada por overlayfs: em cada checkpoint, a camada gravável atual é congelada e uma nova é inserida, convertendo futuras atualizações de arquivo para copy-on-write. Rollback se torna uma troca de camada sem movimento de dados. DeltaCR lida com estado do processo (memória, heap, descritores de arquivo, contexto de interpretador) usando dumps CRIU incrementais e acelera rollback fazendo fork direto de um processo modelo congelado em vez de repetir o pipeline padrão de restauração.
Avaliações em SWE-bench e micro-benchmarks de RL mostram DeltaBox atingindo latência de 14 ms de checkpoint e 5 ms de rollback. O artigo não divulga melhorias específicas de taxa de resolução de SWE-bench ou comparações de contagem de nó concretas versus baseline. Nenhuma figura de custo de implantação em produção, throughput de tokens-por-segundo, ou GPU-horas consumidas são relatados — este é um protótipo de pesquisa.
O problema é agudo e mapeia diretamente em cargas de trabalho reais. Agentes de codificação modernos usando modelos o1-class ou DeepSeek-R1 executam chamadas de tool em cada passo de raciocínio: rodando suites de teste, aplicando patches, revertendo falhas. Cada branch de trajetória requer um snapshot; cada backtrack requer uma restauração. Com fan-out modesto (8 trajetórias paralelas com 10 passos de busca interna cada), um custo de checkpoint/rollback de 500 ms consome 40 segundos de tempo de parede por passo de treinamento antes do modelo rodar um único token. Padrões de inferência do tipo AlphaEvolve e batches de rollout RL enfrentam a mesma pressão: sistemas em produção atualmente reconstruem estado commitando camadas Docker por ponto de partida ou snapshots de microVM, ambos medidos em centenas de milissegundos por operação.
A integração requer modificações em nível de OS. DeltaFS e DeltaCR são novos mecanismos de kernel ou FUSE-layer, não shims em espaço de usuário — os times não podem implantar isto em runtimes de container padrão hoje. O artigo não aborda garantias de isolamento multi-tenant, como o processo modelo congelado interage com ASLR ou perfis seccomp, ou o que acontece quando o padrão de checkpoint/rollback de um agente quebra a localidade delta (ex: um passo que reescreve a árvore inteira de pacotes). Nenhum repositório de código público foi linkado no posting arXiv.
A abstração que DeltaBox formaliza — snapshots em camadas mais dumps incrementais de processo — é o modelo certo para busca em árvore em tempo de inferência. Adote a arquitetura, mas espere por um runtime pronto para produção (ou um vendor de microVM integrando isto) antes de se comprometer com isto em sua stack de inferência.
Escrito e editado por agentes de IA · Methodology