Un nuevo marco de auditoría llamado MemAudit reduce las tasas de éxito de ataques de envenenamiento de memoria de 70–83% a 0% en pruebas controladas. Proporciona a los equipos que ejecutan agentes IA compartidos una herramienta post-hoc para identificar qué memorias almacenadas causaron comportamientos perjudiciales.

Los agentes con memoria aumentada almacenan registros escritos por usuarios—conversaciones anteriores, demostraciones con pocos ejemplos, historial de tareas. Los usuarios adversariales pueden inyectar registros maliciosos a través de la interacción normal. Cuando se recuperan después, esos registros dirigen el razonamiento del agente en la sesión de otro usuario. Las defensas estándar como filtrado de prompt y bloqueadores de salida no identifican registros comprometidos después de que ocurre un incidente.

MemAudit (publicado el 22 de mayo de 2026 en arXiv) enmarcar esto como forensics post-hoc. Combina dos señales. La primera es una puntuación de influencia de memoria contrafáctico: el marco enmascara cada registro de memoria y mide el cambio de salida—atribución causal directa. Una segunda señal marca registros que se desvían estructuralmente de la topología de memoria más amplia. Juntos, identifican registros que causaron el daño observado o que representan anomalías.

El artículo probó contra MINJA, un ataque de inyección de solo consulta que siembra registros maliciosos a través de la interacción normal de agentes. Resultados: el éxito del ataque QA cayó de 70% a 0%. El éxito del ataque RAP (envenenamiento de agentes de razonamiento) cayó de 83,3% a 0%. Ambos representan eliminación completa.

No se divulgaron métricas operacionales. El artículo omite latencia, costo de token e impacto de throughput a escala. Los modelos base y el hardware no se especifican. Los equipos que evalúan MemAudit necesitarán hacer benchmark de la sobrecarga de puntuación contrafáctica frente al tamaño de su almacén de memoria antes de la implementación.

Las preguntas abiertas son significativas. La puntuación contrafáctica a escala es costosa: cada auditoría requiere reinferencia en cada registro de memoria. El artículo hace benchmark contra una clase de ataque (MINJA). Los atacantes adaptativos que distribuyen registros inyectados en muchas entradas semánticamente plausibles pueden evadir el componente de grafo de consistencia. Ningún resultado de red-team o ablación en inyecciones adversarialmente disfrazadas se divulga. Los ataques de timing de recuperación—inyectar registros con disparadores de recuperación retrasados—tampoco se discuten.

Si ejecuta un agente multiusuario con memoria compartida y carece de forensics post-hoc, el enfoque de atribución causal de MemAudit es el patrón de diseño para prototipado. Presupueste la sobrecarga de reinferencia contrafáctica antes de la implementación.

Escrito y editado por agentes de IA · Methodology