MemAudit Reduz Ataques de Envenenamento de Memória a 0%

Pesquisadores apresentam auditoria post-hoc para sistemas de memória de agentes IA, usando atribuição causal e detecção de anomalias estruturais para flagrar injeção de registros adversariais. Ângulo de segurança para arquitetos: memória de agentes agora é uma superfície de ataque conhecida (usuários podem injetar contexto malicioso que será recuperado depois), e MemAudit fornece o primeiro método de detecção automatizada. Equipes implantando sistemas de agentes multi-usuário precisam disso ou de validação de memória equivalente.

Um novo framework de auditoria chamado MemAudit reduz as taxas de sucesso de ataques de envenenamento de memória de 70–83% a 0% em testes controlados. Ele fornece às equipes executando agentes IA compartilhados uma ferramenta post-hoc para identificar quais memórias armazenadas causaram comportamentos prejudiciais.

Agentes com memória aumentada armazenam registros escritos por usuários—conversas anteriores, demonstrações com poucos exemplos, histórico de tarefas. Usuários adversariais podem injetar registros maliciosos através de interação normal. Quando recuperados depois, esses registros orientam o raciocínio do agente em uma sessão de outro usuário. Defesas padrão como filtragem de prompt e bloqueadores de saída não identificam registros comprometidos após um incidente ocorrer.

MemAudit (publicado 22 de maio de 2026 no arXiv) enquadra isso como forensics post-hoc. Ele combina dois sinais. O primeiro é um escore de influência de memória contrafactual: o framework mascara cada registro de memória e mede a mudança de saída—atribuição causal direta. Um segundo sinal flagra registros que se desviam estruturalmente da topologia de memória mais ampla. Juntos, eles identificam registros que causaram o dano observado ou representam anomalias.

O artigo testou contra MINJA, um ataque de injeção apenas por query que semeia registros maliciosos através de interação normal de agentes. Resultados: o sucesso do ataque QA caiu de 70% a 0%. O sucesso do ataque RAP (envenenamento de agente de raciocínio) caiu de 83,3% a 0%. Ambos representam eliminação completa.

Nenhuma métrica operacional foi divulgada. O artigo omite latência, custo de token e impacto de throughput em escala. Modelos base e hardware não são especificados. Equipes avaliando MemAudit precisarão fazer benchmark da overhead de pontuação contrafactual contra seu tamanho de armazenamento de memória antes da implantação.

As questões abertas são significativas. Pontuação contrafactual em escala é cara: cada auditoria requer reinferência em cada registro de memória. O artigo faz benchmark contra uma classe de ataque (MINJA). Atacantes adaptativos que espalham registros injetados através de muitas entradas semanticamente plausíveis podem evitar o componente de grafo de consistência. Nenhum resultado de red-team ou ablação em injeções adversarialmente camufladas é divulgado. Ataques de timing de recuperação—injetar registros com gatilhos de recuperação atrasados—também não são discutidos.

Se você executa um agente multi-usuário com memória compartilhada e carece de forensics post-hoc, a abordagem de atribuição causal de MemAudit é o padrão de design para prototipagem. Orçamente para overhead de reinferência contrafactual antes da implantação.

Sources

MemAudit reduces QA attack success rate from 70% to 0% and RAP attack success from 83.3% to 0%
"MemAudit substantially reduces attack success rates under realistic post-hoc auditing scenarios. The results show that QA attack success is reduced from 70% to 0%, while RAP attack success drops from 83.3% to 0%."
arxiv.org ↗
MemAudit uses two signals: a counterfactual memory influence score and a memory consistency graph
"The framework combines two complementary signals: (1) a counterfactual memory influence score that measures each memory's causal contribution to harmful outputs, and (2) a memory consistency graph that identifies structurally anomalous memories within the broader memory store."
arxiv.org ↗
MemAudit is evaluated against MINJA, a query-only memory injection attack where malicious records are generated through normal agent interactions
"We evaluate MemAudit against MINJA, a query-only memory injection attack in which malicious records are generated and stored through normal agent interactions rather than direct memory-bank modification."
arxiv.org ↗
Adversarial users can inject malicious records into agent memory through ordinary interaction, which are later retrieved to steer agent reasoning and actions
"an adversarial user may inject malicious records into the agent's memory through ordinary interaction, and these records can later be retrieved to steer the agent's reasoning and actions."
arxiv.org ↗
Existing defenses focus on online intervention and do not address which stored memories are responsible after harmful behavior has been observed
"Existing defenses primarily focus on online intervention, such as prompt filtering or output blocking, but they do not address the post-hoc question of which stored memories are responsible after harmful behavior has already been observed."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

MemAudit Reduz Ataques de Envenenamento de Memória a 0%

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.