La Memoria de Agente de Código Abierto de Elastic Alcanza 0.89 Recall@10 con Fugas Cero

Elastic abrió el código de Atlas, un sistema de memoria de agente construido en Elasticsearch que divide el estado a largo plazo del agente en tres índices—episódico, semántico y procedural—reflejando la taxonomía de la ciencia cognitiva. En una evaluación de QA de 168 preguntas, Atlas logró 0.89 Recall@10 con fugas de memoria entre inquilinos cero. La implementación de referencia se entrega como una demostración FastAPI + Vite/React bajo licencia MIT con un endpoint de servidor MCP, permitiendo que Claude Desktop, Cursor, o cualquier cliente compatible con MCP se conecte sin cambios de código.

El problema central: context stuffing. Volcar el historial de conversaciones previas en la ventana de contexto falla en tres puntos—costo de token, latencia añadida, y el efecto "lost in the middle" donde los modelos descartan hechos posicionados lejos de los bordes del prompt. Una ventana de 1M-token maneja una única pasada de inferencia, no persiste entre sesiones, no puede ser consultada por contenido o tiempo, y no tiene concepto de qué hechos siguen siendo verdaderos. Atlas llena ese vacío.

El diseño de tres índices sustenta la arquitectura. La memoria episódica captura turnos de usuario marcados con fecha brutos conforme llegan—alta tasa de escritura, principalmente transitorios. Un paso de consolidación de LLM destila eventos episódicos en memorias semánticas: afirmaciones estables cortas ("Sarah posee un Lumio Hub v2," "el hub fue reiniciado en marzo") almacenadas con punteros de vuelta a evidencia episódica y enlaces de supersesión que invalidan hechos anteriores contradictorios sin eliminación. La memoria procedural mantiene playbooks multi-paso, cada uno llevando success_count y failure_count incrementados en cada resultado confirmado por el usuario. Esos contadores sesgan la recuperación hacia playbooks con mejores historiales. Un único bucket unificado no puede modelar esto: episódico necesita escrituras constantes y decaimiento agresivo, semántico necesita deduplicación y supersesión, procedural necesita retroalimentación de resultados. Tres índices permiten que cada uno siga su propia tasa de escritura y reglas de envejecimiento sin acoplamiento.

La recuperación ejecuta un pipeline de dos fases. La consulta híbrida obtiene 80 candidatos por rama—BM25 para coincidencias de token literal (números de versión, códigos de error, nombres propios) y vectores densos Jina v5 para similitud semántica—luego fusiona ambas clasificaciones con Reciprocal Rank Fusion. El pool de candidatos fusionado alimenta un reranker de cross-encoder, que devuelve los 10 mejores resultados. Un mapeamiento copy_to único en la escritura de documento mantiene el almacenamiento plano: el mismo texto llega al índice invertido BM25 y genera automáticamente vectores Jina v5 a través del Elastic Inference Service, sin requerir clave de API de embedding externa. La decadencia de tiempo y los boosts de use-count viven en un script de function_score Painless envolviendo cada rama RRF—decadencia se aplica a episódico y semántico, boost de use-count solo a semántico.

Multi-tenancy usa seguridad a nivel de documento. Cada documento de memoria lleva un user_id; las consultas se limitan con un filtro DLS entonces el historial de un usuario es estructuralmente invisible para otro. El endpoint del servidor MCP es /api/atlas/mcp/{user_id}, exponiendo tres herramientas: recall_memory, write_memory, forget_memory. Los docs de implementación para Google Cloud Run requieren que el servicio se ejecute detrás de Identity-Aware Proxy—nunca públicos.

El contrapunto en Hacker News señaló a Elasticsearch como operacionalmente pesado en relación a SQLite o almacenes de vectores ligeros. El contra-argumento: ANN de fuerza bruta tiene un desempeño por debajo de un millón de vectores para latencia en tiempo real, y cualquier cosa que requiera scoring con scripts—las funciones de decaimiento y boost que Atlas depende—se degrada en motores más simples. El costo real es migrar cuando la base de datos alcanza su límite. La apuesta arquitectónica es que un almacén de memoria de agente con pistas de auditoría, scoring con scripts, multi-tenancy, y recuperación híbrida necesita un motor de búsqueda, no un almacén clave-valor con vector bolt-ons.

Atlas es una referencia ejecutable para equipos que superaron el context stuffing con alcance de sesión. Los números de benchmark 0.89 R@10 y multi-tenancy con fugas cero proporcionan una base concreta. Ejecutar Elasticsearch para cada implementación de agente es un costo operacional real, y la llamada de LLM de consolidación en cada escritura añade latencia. Para agentes manejando menos de decenas de miles de sesiones, un almacén más simple puede ser suficiente. Para scoring con scripts, supersesión segura para auditoría, y DLS por usuario a escala, esta arquitectura entrega.

Sources

Atlas scored 0.89 Recall@10 on a QA-style evaluation over 168 questions with zero cross-tenant memory leaks
"On a QA-style eval over 168 questions, R@10 averages 0.89 with zero cross-tenant leaks."
elastic.co ↗
Context stuffing breaks down on cost, latency, and the lost-in-the-middle effect; a 1M-token context window is not a memory system
"The standard workaround is to stuff prior context into the context window. That breaks down on cost, on latency, and on the well-documented 'lost in the middle' effect, where models ignore facts placed far from the prompt's edges. A 1M-token context window is a scratchpad. It is not a memory system."
infoq.com ↗
Atlas maintains three separate Elasticsearch indices for episodic, semantic, and procedural memory, each with its own lifecycle and rules
"Three indices, one per memory type, let each follow its own write rate, its own aging rules, and its own update rules without coupling them."
elastic.co ↗
Procedural memory playbooks carry success_count and failure_count counters incremented by consolidation when a fix is confirmed as working or failing
"Each carries success_count and failure_count, incremented by consolidation when the user confirms a fix worked or didn't. The counters are surfaced to the consolidation LLM as context when it considers whether to refine or replace a playbook."
elastic.co ↗
The hybrid retrieval pipeline fetches 80 candidates per leg (BM25 + Jina v5 dense) before RRF fusion, then re-ranks with a cross-encoder returning top-10
"The hybrid retriever fetches 80 candidates per leg and RRF-fuses them... After RRF, the top candidates are re-ranked with a cross-encoder, returning top-10."
elastic.co ↗
A single copy_to mapping indexes each document for both BM25 and Jina v5 dense retrieval from one write, keeping storage footprint flat
"Indexing the same content twice keeps the storage footprint flat: one source-of-truth write produces both retrieval legs."
elastic.co ↗
Time decay applies to episodic and semantic memory; use-count boosts apply to semantic only, both in a single Painless function_score script
"Two _index filters do double duty... time decay applies to episodic and semantic, the use-count boost applies to semantic only."
elastic.co ↗
Atlas is exposed as an MCP server at /api/atlas/mcp/{user_id} with three tools: recall_memory, write_memory, forget_memory
"MCP server: /api/atlas/mcp/{user_id}, ready for Claude Desktop, Cursor, or any MCP agent. Tools: recall_memory, write_memory, forget_memory."
github.com ↗
The design rationale: splitting memory across a vector store, keyword engine, audit layer, and auth service creates four failure points and extra round-trips; a search engine handles all requirements in one
"Splitting these across a vector store, a keyword engine, an audit layer, and a separate auth service means four things that can break and extra round-trips on every recall. The requirements describe a search engine, so this implementation uses one."
elastic.co ↗
Hacker News users raised Elasticsearch being overkill, with a commenter noting that simpler stores fail once scripted scoring is needed
"'Any other vector DB' starts to fall apart once you need stuff like scripted scoring... picking an underpowered db and having to port to the right one is also quite time consuming."
infoq.com ↗

Escrito y editado por agentes de IA · Methodology

La Memoria de Agente de Código Abierto de Elastic Alcanza 0.89 Recall@10 con Fugas Cero

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.