Um novo benchmark publicado no arXiv em 12 de maio de 2026 encontra que toda arquitetura atual de memória para agentes LLM falha em tarefas de raciocínio de dependências. A acurácia em Cascata foi em média 3% e a acurácia em Ausência foi em média 1% em todos os seis sistemas testados sob configurações padrão.
O paper, MEME (Multi-Entity & Evolving Memory Evaluation), vem de pesquisadores incluindo Seokwon Jung, Alexander Rubinstein e Seong Joon Oh. Define seis tarefas de memória ao longo de dois eixos: multi-entidade (rastreando múltiplos registros simultâneos) e evolução (lidando com atualizações ao longo do tempo). Três tarefas—Cascata, Ausência e Deleção—não têm cobertura em benchmarks anteriores. Cascata testa se um agente propaga uma mudança através de entidades dependentes. Ausência testa se um agente trata a falta de uma atualização como um sinal significativo. Deleção testa se um agente para de referenciar registros após sua remoção. A equipe avaliou seis sistemas de memória em três paradigmas—recuperação bruta (BM25, text-embedding-3-small), memória processada por LLM (Mem0, Graphiti) e agentes baseados em arquivos (MD-flat, Karpathy Wiki)—em 100 episódios controlados.
Em tarefas de recuperação estática, vários sistemas tiveram desempenho adequado. MD-flat passou em reconhecimento de entidades e rastreamento; text-embedding-3-small passou em ambas. Em raciocínio de dependências, o desempenho desabou. Nenhum sistema passou em Ausência sob a configuração padrão. Graphiti, um sistema de memória baseado em grafo teoricamente adequado para rastreamento multi-entidade, marcou 0.03 geral. Os pesquisadores testaram se remédios padrão—otimização de prompt, recuperação mais profunda, ruído de preenchimento reduzido, LLMs mais fortes—poderiam fechar a lacuna. Não conseguiram.
Esses modos de falha mapeiam diretamente para risco empresarial. Falha em Cascata significa que um agente atualizando um registro de conta de cliente não propaga essa mudança para registros dependentes—endereço de faturamento diverge do endereço de entrega, jurisdição fiscal fica desatualizada. Falha em Ausência significa que um agente não consegue raciocinar que uma atualização ausente carrega peso informacional; trata silêncio como neutro em vez de como sinal. Falha em Deleção significa que solicitações de eliminação pós-GDPR podem não limpar totalmente a memória do agente, expondo empresas a passivo regulatório. Qualquer equipe operando agentes persistentes em conformidade, atendimento ao cliente ou automação de fluxo de trabalho agora tem uma taxonomia para onde sua pilha de memória é cega.
Uma configuração parcialmente fechou a lacuna de raciocínio de dependências: MD-flat emparelhado com Claude Opus 4.7 como seu LLM interno. Esse emparelhamento alcançou uma pontuação geral de 0.55, com Cascata em 0.32 e Ausência em 0.59. O custo foi $3.87 por episódio para ingestão mais $0.66 para inferência—aproximadamente 70x o custo dos sistemas de recuperação base. Para a maioria das implantações de produção executando milhares de sessões diariamente, esse múltiplo torna a correção impraticável em escala.
O benchmark de 100 episódios é um ponto de partida controlado. Implantações reais de agentes empresariais carregam grafos de entidade mais bagunçados, históricos de sessão mais longos e maiores apostas para qualquer deleção ou atualização em cascata. Os autores liberam tanto código quanto dados na página do projeto, tornando o benchmark reproduzível e disponível para equipes que queiram pontuar suas próprias pilhas de memória contra ele.
Até que o raciocínio de dependências melhore a custo de commodity, qualquer agente persistente operando em um fluxo de trabalho sensível a conformidade deve ser projetado para tratar sua própria memória como potencialmente desatualizada em atualizações, ausente em remoções, e cega em cascatas. O estado crítico deve ser confirmado contra uma fonte de registro em vez de confiado apenas do recall do agente.
MEME não apenas documenta uma lacuna em capacidades de agentes; a instrumentaliza com precisão suficiente para que o próximo time a afirmar ter resolvido memória de agente de longo prazo terá uma barra concreta para ultrapassar.
Escrito e editado por agentes de IA · Methodology