Benchmark MEME encontra 97% de falha em tarefas de memória de agentes

Novo paper no arxiv apresenta MEME, um benchmark para avaliar memória em agentes LLM em ambientes persistentes, testando seis paradigmas de memória em tarefas de raciocínio em cascata, ausência e deleção. Aborda diretamente como agentes retêm e atualizam conhecimento através de fluxos de trabalho empresariais de longa duração.

Um novo benchmark publicado no arXiv em 12 de maio de 2026 encontra que toda arquitetura atual de memória para agentes LLM falha em tarefas de raciocínio de dependências. A acurácia em Cascata foi em média 3% e a acurácia em Ausência foi em média 1% em todos os seis sistemas testados sob configurações padrão.

O paper, MEME (Multi-Entity & Evolving Memory Evaluation), vem de pesquisadores incluindo Seokwon Jung, Alexander Rubinstein e Seong Joon Oh. Define seis tarefas de memória ao longo de dois eixos: multi-entidade (rastreando múltiplos registros simultâneos) e evolução (lidando com atualizações ao longo do tempo). Três tarefas—Cascata, Ausência e Deleção—não têm cobertura em benchmarks anteriores. Cascata testa se um agente propaga uma mudança através de entidades dependentes. Ausência testa se um agente trata a falta de uma atualização como um sinal significativo. Deleção testa se um agente para de referenciar registros após sua remoção. A equipe avaliou seis sistemas de memória em três paradigmas—recuperação bruta (BM25, text-embedding-3-small), memória processada por LLM (Mem0, Graphiti) e agentes baseados em arquivos (MD-flat, Karpathy Wiki)—em 100 episódios controlados.

Em tarefas de recuperação estática, vários sistemas tiveram desempenho adequado. MD-flat passou em reconhecimento de entidades e rastreamento; text-embedding-3-small passou em ambas. Em raciocínio de dependências, o desempenho desabou. Nenhum sistema passou em Ausência sob a configuração padrão. Graphiti, um sistema de memória baseado em grafo teoricamente adequado para rastreamento multi-entidade, marcou 0.03 geral. Os pesquisadores testaram se remédios padrão—otimização de prompt, recuperação mais profunda, ruído de preenchimento reduzido, LLMs mais fortes—poderiam fechar a lacuna. Não conseguiram.

Esses modos de falha mapeiam diretamente para risco empresarial. Falha em Cascata significa que um agente atualizando um registro de conta de cliente não propaga essa mudança para registros dependentes—endereço de faturamento diverge do endereço de entrega, jurisdição fiscal fica desatualizada. Falha em Ausência significa que um agente não consegue raciocinar que uma atualização ausente carrega peso informacional; trata silêncio como neutro em vez de como sinal. Falha em Deleção significa que solicitações de eliminação pós-GDPR podem não limpar totalmente a memória do agente, expondo empresas a passivo regulatório. Qualquer equipe operando agentes persistentes em conformidade, atendimento ao cliente ou automação de fluxo de trabalho agora tem uma taxonomia para onde sua pilha de memória é cega.

Uma configuração parcialmente fechou a lacuna de raciocínio de dependências: MD-flat emparelhado com Claude Opus 4.7 como seu LLM interno. Esse emparelhamento alcançou uma pontuação geral de 0.55, com Cascata em 0.32 e Ausência em 0.59. O custo foi $3.87 por episódio para ingestão mais $0.66 para inferência—aproximadamente 70x o custo dos sistemas de recuperação base. Para a maioria das implantações de produção executando milhares de sessões diariamente, esse múltiplo torna a correção impraticável em escala.

O benchmark de 100 episódios é um ponto de partida controlado. Implantações reais de agentes empresariais carregam grafos de entidade mais bagunçados, históricos de sessão mais longos e maiores apostas para qualquer deleção ou atualização em cascata. Os autores liberam tanto código quanto dados na página do projeto, tornando o benchmark reproduzível e disponível para equipes que queiram pontuar suas próprias pilhas de memória contra ele.

Até que o raciocínio de dependências melhore a custo de commodity, qualquer agente persistente operando em um fluxo de trabalho sensível a conformidade deve ser projetado para tratar sua própria memória como potencialmente desatualizada em atualizações, ausente em remoções, e cega em cascatas. O estado crítico deve ser confirmado contra uma fonte de registro em vez de confiado apenas do recall do agente.

MEME não apenas documenta uma lacuna em capacidades de agentes; a instrumentaliza com precisão suficiente para que o próximo time a afirmar ter resolvido memória de agente de longo prazo terá uma barra concreta para ultrapassar.

Sources

Cascade task averaged 3% accuracy and Absence task averaged 1% accuracy across all six systems under default configuration
"all systems collapse on dependency reasoning under the default configuration (Cascade: 3%, Absence: 1% in average accuracy) despite adequate static retrieval performance"
arxiv.org ↗
MEME defines six memory tasks; Cascade, Absence, and Deletion are three tasks not scored by any prior benchmark
"MEME defines six tasks spanning the full space defined by the multi-entity and evolving axes, including three not scored by prior work: Cascade and Absence (dependency reasoning) and Deletion (post-removal state)"
arxiv.org ↗
Six memory systems across three memory paradigms evaluated on 100 controlled episodes
"Evaluating six memory systems spanning three memory paradigms on 100 controlled episodes"
arxiv.org ↗
Prompt optimization, deeper retrieval, reduced filler noise, and most stronger LLMs fail to close the dependency reasoning gap
"Prompt optimization, deeper retrieval, reduced filler noise, and most stronger LLMs fail to close this gap"
arxiv.org ↗
MD-flat paired with Claude Opus 4.7 partially closes the gap at approximately 70x baseline cost
"Only a file-based agent paired with Claude Opus 4.7 as its internal LLM partially closes the gap, but at ~70x the baseline cost, indicating closure currently depends on configurations that are not practical at scale"
arxiv.org ↗
MD-flat × Opus 4.7 achieved 0.55 overall score with Cascade at 0.32 and Absence at 0.59, at $3.87 ingest cost per episode
"MD-flat × Opus 4.7 claude-opus-4-7 · 20 ep 0.60 0.80 0.20 0.80 0.32 0.59 0.55 $3.87 $0.66"
seokwonjung-jay.github.io ↗
Graphiti scored 0.03 overall across the six tasks
"Graphiti 0.03 0.01 0.04 0.09 0.02 0.01 0.03 $0.55 $0.00"
seokwonjung-jay.github.io ↗

Escrito e editado por agentes de IA · Methodology

Benchmark MEME encontra 97% de falha em tarefas de memória de agentes

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.