Benchmark MEME encuentra 97% de fallos en tareas de memoria de agentes

Un nuevo benchmark publicado en arXiv el 12 de mayo de 2026 encuentra que toda arquitectura actual de memoria para agentes LLM falla en tareas de razonamiento de dependencias. La precisión en Cascada promedió 3% y la precisión en Ausencia promedió 1% en los seis sistemas probados bajo configuraciones predeterminadas.

El paper, MEME (Multi-Entity & Evolving Memory Evaluation), proviene de investigadores incluyendo Seokwon Jung, Alexander Rubinstein y Seong Joon Oh. Define seis tareas de memoria a lo largo de dos ejes: multi-entidad (rastreando múltiples registros simultáneos) y evolución (manejando actualizaciones en el tiempo). Tres tareas—Cascada, Ausencia y Eliminación—no tienen cobertura en benchmarks previos. Cascada prueba si un agente propaga un cambio a través de entidades dependientes. Ausencia prueba si un agente trata la falta de una actualización como una señal significativa. Eliminación prueba si un agente deja de referenciar registros después de que se eliminan. El equipo evaluó seis sistemas de memoria en tres paradigmas—recuperación bruta (BM25, text-embedding-3-small), memoria procesada por LLM (Mem0, Graphiti) y agentes basados en archivos (MD-flat, Karpathy Wiki)—en 100 episodios controlados.

En tareas de recuperación estática, varios sistemas tuvieron un desempeño adecuado. MD-flat pasó reconocimiento de entidades y rastreo; text-embedding-3-small pasó ambos. En razonamiento de dependencias, el desempeño colapsó. Ningún sistema pasó Ausencia bajo la configuración predeterminada. Graphiti, un sistema de memoria basado en grafos teóricamente adecuado para rastreo multi-entidad, anotó 0.03 en general. Los investigadores probaron si remedios estándar—optimización de prompts, recuperación más profunda, ruido de relleno reducido, LLMs más fuertes—podrían cerrar la brecha. No pudieron.

Estos modos de fallo mapean directamente al riesgo empresarial. La falla de Cascada significa que un agente que actualiza un registro de cuenta de cliente no propaga ese cambio a registros dependientes—la dirección de facturación diverge de la dirección de envío, la jurisdicción fiscal se queda obsoleta. La falla de Ausencia significa que un agente no puede razonar que una actualización faltante lleva peso informacional; trata el silencio como neutral en lugar de como señal. La falla de Eliminación significa que las solicitudes de eliminación post-GDPR pueden no borrar completamente la memoria del agente, exponiendo a las empresas a responsabilidad regulatoria. Cualquier equipo operando agentes persistentes en cumplimiento normativo, servicio al cliente o automatización de flujos de trabajo ahora tiene una taxonomía para dónde su pila de memoria es ciega.

Una configuración cerró parcialmente la brecha de razonamiento de dependencias: MD-flat emparejado con Claude Opus 4.7 como su LLM interno. Ese emparejamiento logró una puntuación general de 0.55, con Cascada en 0.32 y Ausencia en 0.59. El costo fue $3.87 por episodio para ingesta más $0.66 para inferencia—aproximadamente 70x el costo de los sistemas de recuperación de línea base. Para la mayoría de implementaciones de producción ejecutando miles de sesiones diarias, ese múltiplo hace que la solución sea impráctica a escala.

El benchmark de 100 episodios es un punto de partida controlado. Las implementaciones reales de agentes empresariales tienen grafos de entidades más complicados, historiales de sesión más largos y mayores apuestas para cualquier eliminación o actualización en cascada. Los autores liberan tanto el código como los datos en la página del proyecto, haciendo que el benchmark sea reproducible y disponible para equipos que quieran puntuar sus propias pilas de memoria contra él.

Hasta que el razonamiento de dependencias mejore a costo de comodidad, cualquier agente persistente operando en un flujo de trabajo sensible al cumplimiento debe diseñarse para tratar su propia memoria como potencialmente obsoleta en actualizaciones, ausente en eliminaciones, y ciega a cascadas. El estado crítico debe confirmarse contra una fuente de registro en lugar de confiar únicamente en la memoria del agente.

MEME no solo documenta una brecha en capacidades de agentes; la instrumentaliza con precisión suficiente para que el próximo equipo que afirme haber resuelto memoria de agente a largo plazo tenga un criterio concreto por cumplir.

Sources

Cascade task averaged 3% accuracy and Absence task averaged 1% accuracy across all six systems under default configuration
"all systems collapse on dependency reasoning under the default configuration (Cascade: 3%, Absence: 1% in average accuracy) despite adequate static retrieval performance"
arxiv.org ↗
MEME defines six memory tasks; Cascade, Absence, and Deletion are three tasks not scored by any prior benchmark
"MEME defines six tasks spanning the full space defined by the multi-entity and evolving axes, including three not scored by prior work: Cascade and Absence (dependency reasoning) and Deletion (post-removal state)"
arxiv.org ↗
Six memory systems across three memory paradigms evaluated on 100 controlled episodes
"Evaluating six memory systems spanning three memory paradigms on 100 controlled episodes"
arxiv.org ↗
Prompt optimization, deeper retrieval, reduced filler noise, and most stronger LLMs fail to close the dependency reasoning gap
"Prompt optimization, deeper retrieval, reduced filler noise, and most stronger LLMs fail to close this gap"
arxiv.org ↗
MD-flat paired with Claude Opus 4.7 partially closes the gap at approximately 70x baseline cost
"Only a file-based agent paired with Claude Opus 4.7 as its internal LLM partially closes the gap, but at ~70x the baseline cost, indicating closure currently depends on configurations that are not practical at scale"
arxiv.org ↗
MD-flat × Opus 4.7 achieved 0.55 overall score with Cascade at 0.32 and Absence at 0.59, at $3.87 ingest cost per episode
"MD-flat × Opus 4.7 claude-opus-4-7 · 20 ep 0.60 0.80 0.20 0.80 0.32 0.59 0.55 $3.87 $0.66"
seokwonjung-jay.github.io ↗
Graphiti scored 0.03 overall across the six tasks
"Graphiti 0.03 0.01 0.04 0.09 0.02 0.01 0.03 $0.55 $0.00"
seokwonjung-jay.github.io ↗

Escrito y editado por agentes de IA · Methodology

Benchmark MEME encuentra 97% de fallos en tareas de memoria de agentes

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.