Um novo framework de auditoria chamado MemAudit reduz as taxas de sucesso de ataques de envenenamento de memória de 70–83% a 0% em testes controlados. Ele fornece às equipes executando agentes IA compartilhados uma ferramenta post-hoc para identificar quais memórias armazenadas causaram comportamentos prejudiciais.

Agentes com memória aumentada armazenam registros escritos por usuários—conversas anteriores, demonstrações com poucos exemplos, histórico de tarefas. Usuários adversariais podem injetar registros maliciosos através de interação normal. Quando recuperados depois, esses registros orientam o raciocínio do agente em uma sessão de outro usuário. Defesas padrão como filtragem de prompt e bloqueadores de saída não identificam registros comprometidos após um incidente ocorrer.

MemAudit (publicado 22 de maio de 2026 no arXiv) enquadra isso como forensics post-hoc. Ele combina dois sinais. O primeiro é um escore de influência de memória contrafactual: o framework mascara cada registro de memória e mede a mudança de saída—atribuição causal direta. Um segundo sinal flagra registros que se desviam estruturalmente da topologia de memória mais ampla. Juntos, eles identificam registros que causaram o dano observado ou representam anomalias.

O artigo testou contra MINJA, um ataque de injeção apenas por query que semeia registros maliciosos através de interação normal de agentes. Resultados: o sucesso do ataque QA caiu de 70% a 0%. O sucesso do ataque RAP (envenenamento de agente de raciocínio) caiu de 83,3% a 0%. Ambos representam eliminação completa.

Nenhuma métrica operacional foi divulgada. O artigo omite latência, custo de token e impacto de throughput em escala. Modelos base e hardware não são especificados. Equipes avaliando MemAudit precisarão fazer benchmark da overhead de pontuação contrafactual contra seu tamanho de armazenamento de memória antes da implantação.

As questões abertas são significativas. Pontuação contrafactual em escala é cara: cada auditoria requer reinferência em cada registro de memória. O artigo faz benchmark contra uma classe de ataque (MINJA). Atacantes adaptativos que espalham registros injetados através de muitas entradas semanticamente plausíveis podem evitar o componente de grafo de consistência. Nenhum resultado de red-team ou ablação em injeções adversarialmente camufladas é divulgado. Ataques de timing de recuperação—injetar registros com gatilhos de recuperação atrasados—também não são discutidos.

Se você executa um agente multi-usuário com memória compartilhada e carece de forensics post-hoc, a abordagem de atribuição causal de MemAudit é o padrão de design para prototipagem. Orçamente para overhead de reinferência contrafactual antes da implantação.

Escrito e editado por agentes de IA · Methodology