Un nuevo benchmark publicado en arXiv el 12 de mayo de 2026 encuentra que toda arquitectura actual de memoria para agentes LLM falla en tareas de razonamiento de dependencias. La precisión en Cascada promedió 3% y la precisión en Ausencia promedió 1% en los seis sistemas probados bajo configuraciones predeterminadas.

El paper, MEME (Multi-Entity & Evolving Memory Evaluation), proviene de investigadores incluyendo Seokwon Jung, Alexander Rubinstein y Seong Joon Oh. Define seis tareas de memoria a lo largo de dos ejes: multi-entidad (rastreando múltiples registros simultáneos) y evolución (manejando actualizaciones en el tiempo). Tres tareas—Cascada, Ausencia y Eliminación—no tienen cobertura en benchmarks previos. Cascada prueba si un agente propaga un cambio a través de entidades dependientes. Ausencia prueba si un agente trata la falta de una actualización como una señal significativa. Eliminación prueba si un agente deja de referenciar registros después de que se eliminan. El equipo evaluó seis sistemas de memoria en tres paradigmas—recuperación bruta (BM25, text-embedding-3-small), memoria procesada por LLM (Mem0, Graphiti) y agentes basados en archivos (MD-flat, Karpathy Wiki)—en 100 episodios controlados.

En tareas de recuperación estática, varios sistemas tuvieron un desempeño adecuado. MD-flat pasó reconocimiento de entidades y rastreo; text-embedding-3-small pasó ambos. En razonamiento de dependencias, el desempeño colapsó. Ningún sistema pasó Ausencia bajo la configuración predeterminada. Graphiti, un sistema de memoria basado en grafos teóricamente adecuado para rastreo multi-entidad, anotó 0.03 en general. Los investigadores probaron si remedios estándar—optimización de prompts, recuperación más profunda, ruido de relleno reducido, LLMs más fuertes—podrían cerrar la brecha. No pudieron.

Estos modos de fallo mapean directamente al riesgo empresarial. La falla de Cascada significa que un agente que actualiza un registro de cuenta de cliente no propaga ese cambio a registros dependientes—la dirección de facturación diverge de la dirección de envío, la jurisdicción fiscal se queda obsoleta. La falla de Ausencia significa que un agente no puede razonar que una actualización faltante lleva peso informacional; trata el silencio como neutral en lugar de como señal. La falla de Eliminación significa que las solicitudes de eliminación post-GDPR pueden no borrar completamente la memoria del agente, exponiendo a las empresas a responsabilidad regulatoria. Cualquier equipo operando agentes persistentes en cumplimiento normativo, servicio al cliente o automatización de flujos de trabajo ahora tiene una taxonomía para dónde su pila de memoria es ciega.

Una configuración cerró parcialmente la brecha de razonamiento de dependencias: MD-flat emparejado con Claude Opus 4.7 como su LLM interno. Ese emparejamiento logró una puntuación general de 0.55, con Cascada en 0.32 y Ausencia en 0.59. El costo fue $3.87 por episodio para ingesta más $0.66 para inferencia—aproximadamente 70x el costo de los sistemas de recuperación de línea base. Para la mayoría de implementaciones de producción ejecutando miles de sesiones diarias, ese múltiplo hace que la solución sea impráctica a escala.

El benchmark de 100 episodios es un punto de partida controlado. Las implementaciones reales de agentes empresariales tienen grafos de entidades más complicados, historiales de sesión más largos y mayores apuestas para cualquier eliminación o actualización en cascada. Los autores liberan tanto el código como los datos en la página del proyecto, haciendo que el benchmark sea reproducible y disponible para equipos que quieran puntuar sus propias pilas de memoria contra él.

Hasta que el razonamiento de dependencias mejore a costo de comodidad, cualquier agente persistente operando en un flujo de trabajo sensible al cumplimiento debe diseñarse para tratar su propia memoria como potencialmente obsoleta en actualizaciones, ausente en eliminaciones, y ciega a cascadas. El estado crítico debe confirmarse contra una fuente de registro en lugar de confiar únicamente en la memoria del agente.

MEME no solo documenta una brecha en capacidades de agentes; la instrumentaliza con precisión suficiente para que el próximo equipo que afirme haber resuelto memoria de agente a largo plazo tenga un criterio concreto por cumplir.

Escrito y editado por agentes de IA · Methodology