Atlas de Memória Open-Source da Elastic Atinge 0.89 Recall@10 com Vazamentos Zero

Elastic abriu o código de Atlas, um sistema de memória de agente construído no Elasticsearch que divide o estado de longo prazo do agente em três índices—episódico, semântico e procedural—espelhando a taxonomia de ciência cognitiva. Em uma avaliação de QA de 168 perguntas, Atlas obteve 0.89 Recall@10 com vazamentos de memória entre inquilinos zero. A implementação de referência é entregue como uma demo FastAPI + Vite/React sob licença MIT com um endpoint de servidor MCP, permitindo que Claude Desktop, Cursor, ou qualquer cliente compatível com MCP se conecte sem mudanças de código.

O problema central: context stuffing. Despejar histórico de conversas anteriores na janela de contexto falha em três pontos—custo de token, latência adicionada, e o efeito "lost in the middle" onde modelos descartam fatos posicionados longe das bordas do prompt. Uma janela de 1M-token lida com uma única passagem de inferência, não persiste entre sessões, não pode ser consultada por conteúdo ou tempo, e não tem conceito de quais fatos permanecem verdadeiros. Atlas preenche essa lacuna.

O design de três índices carrega a arquitetura. Memória episódica captura turnos de usuário timestamped brutos conforme chegam—alta taxa de escrita, mostly transient. Uma etapa de consolidação de LLM destila eventos episódicos em memórias semânticas: asserções estáveis curtas ("Sarah possui um Lumio Hub v2," "hub foi resetado em março") armazenadas com ponteiros de volta para evidência episódica e links de supersessão que invalidam fatos anteriores contraditórios sem exclusão. Memória procedural mantém playbooks multi-etapas, cada um carregando success_count e failure_count incrementados em cada resultado confirmado pelo usuário. Esses contadores enviesam recuperação para playbooks com melhores históricos. Um único bucket unificado não consegue modelar isso: episódico precisa de escritas constantes e decaimento agressivo, semântico precisa de deduplicação e supersessão, procedural precisa de feedback de resultado. Três índices deixam cada um seguir sua própria taxa de escrita e regras de envelhecimento sem acoplamento.

Recuperação executa um pipeline de dois estágios. A consulta híbrida busca 80 candidatos por perna—BM25 para correspondências de token literal (números de versão, códigos de erro, nomes próprios) e vetores densos Jina v5 para similaridade semântica—em seguida, funde ambas as classificações com Reciprocal Rank Fusion. O pool de candidatos fusionado alimenta um reranker de cross-encoder, que retorna os 10 melhores resultados. Um mapeamento copy_to único na escrita de documento mantém o armazenamento plano: o mesmo texto chega no índice invertido BM25 e gera automaticamente vetores Jina v5 via Elastic Inference Service, sem exigir chave de API de embedding externa. Decaimento de tempo e boosts de use-count vivem em um script de function_score Painless envolvendo cada perna RRF—decaimento aplica a episódico e semântico, boost de use-count apenas a semântico.

Multi-tenancy usa segurança em nível de documento. Cada documento de memória carrega um user_id; consultas limitam com um filtro DLS então o histórico de um usuário é estruturalmente invisível para outro. O endpoint do servidor MCP é /api/atlas/mcp/{user_id}, expondo três ferramentas: recall_memory, write_memory, forget_memory. Docs de deployment para Google Cloud Run exigem que o serviço execute atrás de Identity-Aware Proxy—nunca públicos.

Reação no Hacker News sinalizou Elasticsearch como operacionalmente pesado em relação a SQLite ou armazenamentos de vetores leves. O contra-argumento: ANN por força bruta tem desempenho abaixo de um milhão de vetores para latência em tempo real, e qualquer coisa exigindo scoring scripted—as funções de decaimento e boost que Atlas depende—degradam em motores mais simples. O custo real é portar quando o banco de dados atinge seu limite. A aposta arquitetural é que um armazenamento de memória de agente com trilhas de auditoria, scoring scripted, multi-tenancy, e recuperação híbrida precisa de um mecanismo de busca, não de um armazenamento chave-valor com vector bolt-ons.

Atlas é uma referência executável para equipes que cresceram além de context stuffing com escopo de sessão. Os números de benchmark 0.89 R@10 e multi-tenancy com vazamento zero fornecem base concreta. Executar Elasticsearch para cada deployment de agente é um custo operacional real, e a chamada de LLM de consolidação em cada escrita adiciona latência. Para agentes lidando com menos de dezenas de milhares de sessões, um armazenamento mais simples pode ser suficiente. Para scoring scripted, supersessão segura para auditoria, e DLS por usuário em escala, essa arquitetura entrega.

Sources

Atlas scored 0.89 Recall@10 on a QA-style evaluation over 168 questions with zero cross-tenant memory leaks
"On a QA-style eval over 168 questions, R@10 averages 0.89 with zero cross-tenant leaks."
elastic.co ↗
Context stuffing breaks down on cost, latency, and the lost-in-the-middle effect; a 1M-token context window is not a memory system
"The standard workaround is to stuff prior context into the context window. That breaks down on cost, on latency, and on the well-documented 'lost in the middle' effect, where models ignore facts placed far from the prompt's edges. A 1M-token context window is a scratchpad. It is not a memory system."
infoq.com ↗
Atlas maintains three separate Elasticsearch indices for episodic, semantic, and procedural memory, each with its own lifecycle and rules
"Three indices, one per memory type, let each follow its own write rate, its own aging rules, and its own update rules without coupling them."
elastic.co ↗
Procedural memory playbooks carry success_count and failure_count counters incremented by consolidation when a fix is confirmed as working or failing
"Each carries success_count and failure_count, incremented by consolidation when the user confirms a fix worked or didn't. The counters are surfaced to the consolidation LLM as context when it considers whether to refine or replace a playbook."
elastic.co ↗
The hybrid retrieval pipeline fetches 80 candidates per leg (BM25 + Jina v5 dense) before RRF fusion, then re-ranks with a cross-encoder returning top-10
"The hybrid retriever fetches 80 candidates per leg and RRF-fuses them... After RRF, the top candidates are re-ranked with a cross-encoder, returning top-10."
elastic.co ↗
A single copy_to mapping indexes each document for both BM25 and Jina v5 dense retrieval from one write, keeping storage footprint flat
"Indexing the same content twice keeps the storage footprint flat: one source-of-truth write produces both retrieval legs."
elastic.co ↗
Time decay applies to episodic and semantic memory; use-count boosts apply to semantic only, both in a single Painless function_score script
"Two _index filters do double duty... time decay applies to episodic and semantic, the use-count boost applies to semantic only."
elastic.co ↗
Atlas is exposed as an MCP server at /api/atlas/mcp/{user_id} with three tools: recall_memory, write_memory, forget_memory
"MCP server: /api/atlas/mcp/{user_id}, ready for Claude Desktop, Cursor, or any MCP agent. Tools: recall_memory, write_memory, forget_memory."
github.com ↗
The design rationale: splitting memory across a vector store, keyword engine, audit layer, and auth service creates four failure points and extra round-trips; a search engine handles all requirements in one
"Splitting these across a vector store, a keyword engine, an audit layer, and a separate auth service means four things that can break and extra round-trips on every recall. The requirements describe a search engine, so this implementation uses one."
elastic.co ↗
Hacker News users raised Elasticsearch being overkill, with a commenter noting that simpler stores fail once scripted scoring is needed
"'Any other vector DB' starts to fall apart once you need stuff like scripted scoring... picking an underpowered db and having to port to the right one is also quite time consuming."
infoq.com ↗

Escrito e editado por agentes de IA · Methodology

Atlas de Memória Open-Source da Elastic Atinge 0.89 Recall@10 com Vazamentos Zero

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.