EvoArena Benchmark Revela Colapso de Agentes em Ambientes em Evolução

Agentes atualmente têm uma média de 39,6% de precisão em ambientes de terminal, software e sociais em evolução, de acordo com o benchmark EvoArena introduzido por um grupo liderado pela NUS, incluindo Salesforce AI Research e MIT. Esta é a primeira suite para modelar a deriva do mundo real como atualizações progressivas em versões em vez de instantâneos estáticos. O benchmark consiste em três sub-tarefas: Terminal-Bench-Evo para fluxos de trabalho CLI em mudança, SWE-Chain-Evo para bases de código em evolução e PersonaMem-Evo para preferências de usuário em deriva. Ao contrário de WebArena, SWE-Bench ou GAIA, EvoArena sequencia mudanças consecutivas e testa se um agente pode lidar com uma cadeia de subtarefas evolutivas relacionadas sem descartar restrições que permanecem válidas de versões anteriores.

O principal modo de falha é o "colapso de estado", onde agentes padrão construídos sobre arquiteturas de banco de memória ou loja episódica mantêm um único estado mais recente. Quando uma permissão de fluxo de trabalho ou esquema de API é atualizada, a nova regra sobrescreve a antiga, fazendo com que o agente perca tanto o comportamento anterior quanto o limite contextual de quando foi aplicado. EvoArena descobre que esse colapso é a norma em todos os três domínios e que as verificações de compatibilidade de versão são particularmente letais para sistemas de linha de base.

Para contrariar o colapso, os autores propõem EvoMem, um complemento leve que adiciona um log de patch somente-acréscimo a sistemas de memória existentes em vez de reescrevê-los. Cada mudança ambiental é armazenada como uma diff estruturada, permitindo que o agente reconstrua qualquer estado anterior ao reproduzir a sequência. No EvoArena, EvoMem melhora a precisão média em 1,5 pontos percentuais sobre linhas de base colapsadas, com ganhos maiores de 6,1% no GAIA e 4,8% no LoCoMo. A precisão a nível de cadeia melhora em 3,7% com EvoMem.

No entanto, o artigo não relata o custo de serviço, a latência de relógio de parede para reprodução de patch, o gasto de token por reconstrução ou as horas de GPU. A proposta de valor é a complexidade de recuperação: reconstruir o estado a partir de um log de diffs é algoritmicamente mais caro do que ler um único snapshot. Código e conjuntos de dados estão disponíveis no GitHub e HuggingFace, mas ainda não há evidência de produção. Arquitetos avaliando EvoMem para agentes de longa duração precisariam ver as distribuições de latência em profundidades de log de patch de milhares de versões, o multiplicador de custo de token versus recuperação de memória plana e se o método sobrevive sob limites de taxa e limites de janela de contexto.

Um aumento de 1,5 pontos em uma linha de base de 39,6% significa que o fracasso permanece o resultado modal e a sobrevivência a nível de cadeia ainda está longe de ser alcançada pelos modelos atuais. Capturar a história não é o mesmo que raciocinar corretamente sobre ela sob orçamentos de cálculo. Para equipes que executam bots CI, assistentes de codificação persistentes ou sistemas de concierge personalizados, o custo de integração implícito é não trivial: alguém deve definir esquemas de patch estruturados, conectá-los à loja de memória e promover o LLM a ler históricos de diff em vez de contexto de chave-valor simples. A questão aberta é se esses ganhos se mantêm uma vez que os logs de patch crescem além dos horizontes de algumas dúzias de etapas típicos em benchmarks acadêmicos e se o overhead de memória de armazenar todas as diffs eventualmente força uma etapa de compressão ou resumo que reintroduz o risco de perda de estado que o EvoMem foi destinado a resolver.

Sources

Current agents average 39.6% accuracy on EvoArena across evolving terminal, software, and social-preference domains
"Experiments show that current agents struggle on EvoArena, achieving an average accuracy of 39.6% across evolving terminal, software, and social-preference domains."
arxiv.org ↗
EvoArena covers three sub-benchmarks: Terminal-Bench-Evo, SWE-Chain-Evo, and PersonaMem-Evo
"EvoArena includes Terminal-Bench-Evo for evolving terminal workflows, SWE-Chain-Evo for evolving codebases, and PersonaMem-Evo for evolving user preferences."
arxiv.org ↗
EvoMem yields a 1.5% average accuracy gain on EvoArena, +6.1% on GAIA, and +4.8% on LoCoMo
"EvoMem consistently improves performance, yielding an average gain of 1.5% on EvoArena and also improving standard benchmarks such as GAIA and LoCoMo by 6.1% and 4.8%."
arxiv.org ↗
EvoMem improves chain-level accuracy by 3.7% on EvoArena
"EvoMem further improves chain-level accuracy by 3.7% on EvoArena, where success requires completing a consecutive sequence of related evolutionary subtasks."
arxiv.org ↗
State collapse is the core failure mode: standard agents maintain a single latest memory state, causing prior valid knowledge to be silently overwritten
"most memory-based agents maintain memory as a single latest state... This design is effective when newer information safely supersedes older information, but becomes brittle when different environment versions require different behaviors."
arxiv.org ↗
EvoMem is a lightweight git-like patch log add-on: each change is stored as a structured diff enabling prior-state reconstruction
"EvoMem augments a standard memory system with an append-only patch log — each environment change is stored as a structured diff (what changed, what was replaced, what context triggered it)"
arxiv.org ↗
Code is available on GitHub and dataset on HuggingFace
"https://github.com/Aiden0526/EvoArena"
github.com ↗

Escrito e editado por agentes de IA · Methodology

EvoArena Benchmark Revela Colapso de Agentes em Ambientes em Evolução

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.