MemAudit Reduce Ataques de Envenenamiento de Memoria a 0%

Investigadores presentan auditoría post-hoc para sistemas de memoria de agentes IA, utilizando atribución causal y detección de anomalías estructurales para detectar inyección de registros adversariales. Ángulo de seguridad para arquitectos: la memoria de agentes ahora es una superficie de ataque conocida (usuarios pueden inyectar contexto malicioso que se recuperará después), y MemAudit proporciona el primer método de detección automatizado. Los equipos que implementan sistemas de agentes multiusuario necesitan esto o validación de memoria equivalente.

Un nuevo marco de auditoría llamado MemAudit reduce las tasas de éxito de ataques de envenenamiento de memoria de 70–83% a 0% en pruebas controladas. Proporciona a los equipos que ejecutan agentes IA compartidos una herramienta post-hoc para identificar qué memorias almacenadas causaron comportamientos perjudiciales.

Los agentes con memoria aumentada almacenan registros escritos por usuarios—conversaciones anteriores, demostraciones con pocos ejemplos, historial de tareas. Los usuarios adversariales pueden inyectar registros maliciosos a través de la interacción normal. Cuando se recuperan después, esos registros dirigen el razonamiento del agente en la sesión de otro usuario. Las defensas estándar como filtrado de prompt y bloqueadores de salida no identifican registros comprometidos después de que ocurre un incidente.

MemAudit (publicado el 22 de mayo de 2026 en arXiv) enmarcar esto como forensics post-hoc. Combina dos señales. La primera es una puntuación de influencia de memoria contrafáctico: el marco enmascara cada registro de memoria y mide el cambio de salida—atribución causal directa. Una segunda señal marca registros que se desvían estructuralmente de la topología de memoria más amplia. Juntos, identifican registros que causaron el daño observado o que representan anomalías.

El artículo probó contra MINJA, un ataque de inyección de solo consulta que siembra registros maliciosos a través de la interacción normal de agentes. Resultados: el éxito del ataque QA cayó de 70% a 0%. El éxito del ataque RAP (envenenamiento de agentes de razonamiento) cayó de 83,3% a 0%. Ambos representan eliminación completa.

No se divulgaron métricas operacionales. El artículo omite latencia, costo de token e impacto de throughput a escala. Los modelos base y el hardware no se especifican. Los equipos que evalúan MemAudit necesitarán hacer benchmark de la sobrecarga de puntuación contrafáctica frente al tamaño de su almacén de memoria antes de la implementación.

Las preguntas abiertas son significativas. La puntuación contrafáctica a escala es costosa: cada auditoría requiere reinferencia en cada registro de memoria. El artículo hace benchmark contra una clase de ataque (MINJA). Los atacantes adaptativos que distribuyen registros inyectados en muchas entradas semánticamente plausibles pueden evadir el componente de grafo de consistencia. Ningún resultado de red-team o ablación en inyecciones adversarialmente disfrazadas se divulga. Los ataques de timing de recuperación—inyectar registros con disparadores de recuperación retrasados—tampoco se discuten.

Si ejecuta un agente multiusuario con memoria compartida y carece de forensics post-hoc, el enfoque de atribución causal de MemAudit es el patrón de diseño para prototipado. Presupueste la sobrecarga de reinferencia contrafáctica antes de la implementación.

Sources

MemAudit reduces QA attack success rate from 70% to 0% and RAP attack success from 83.3% to 0%
"MemAudit substantially reduces attack success rates under realistic post-hoc auditing scenarios. The results show that QA attack success is reduced from 70% to 0%, while RAP attack success drops from 83.3% to 0%."
arxiv.org ↗
MemAudit uses two signals: a counterfactual memory influence score and a memory consistency graph
"The framework combines two complementary signals: (1) a counterfactual memory influence score that measures each memory's causal contribution to harmful outputs, and (2) a memory consistency graph that identifies structurally anomalous memories within the broader memory store."
arxiv.org ↗
MemAudit is evaluated against MINJA, a query-only memory injection attack where malicious records are generated through normal agent interactions
"We evaluate MemAudit against MINJA, a query-only memory injection attack in which malicious records are generated and stored through normal agent interactions rather than direct memory-bank modification."
arxiv.org ↗
Adversarial users can inject malicious records into agent memory through ordinary interaction, which are later retrieved to steer agent reasoning and actions
"an adversarial user may inject malicious records into the agent's memory through ordinary interaction, and these records can later be retrieved to steer the agent's reasoning and actions."
arxiv.org ↗
Existing defenses focus on online intervention and do not address which stored memories are responsible after harmful behavior has been observed
"Existing defenses primarily focus on online intervention, such as prompt filtering or output blocking, but they do not address the post-hoc question of which stored memories are responsible after harmful behavior has already been observed."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

MemAudit Reduce Ataques de Envenenamiento de Memoria a 0%

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.