Rensselaer e IBM Exponen Fuga de KV Cache en LLMs Multi-Agentes

Investigadores del Rensselaer Polytechnic Institute e IBM Research identificaron una superficie de ataque a nivel de representación en sistemas LLM multi-agentes que comparten cachés KV para eficiencia — y lanzaron LCGuard, un framework de entrenamiento adversarial para defenderse contra ella.

Los frameworks multi-agentes recientes como CAMEL y AutoGen tradicionalmente pasan lenguaje natural entre agentes: cada paso decodifica, tokeniza y reconstruye el estado semántico. Esto es lento e impreciso. Trabajos más recientes evitan ese viaje de ida y vuelta al pasar cachés KV de transformer directamente entre agentes como memoria de trabajo compartida. Esto preserva una estructura semántica más rica y reduce la computación redundante. También abre un canal encubierto. Los cachés KV codifican entradas contextuales, estados intermedios de razonamiento y estructura de atención — información que puede nunca aparecer en la salida textual del agente pero permanece incrustada y propagable en la representación misma.

La amenaza es específica: un adversario con acceso a artefactos de caché compartido — a través de un agente downstream comprometido, infraestructura de logging o un modelo de monitoreo — puede entrenar un decodificador para reconstruir las entradas privadas del agente upstream directamente desde la representación KV. El ataque no requiere divulgación textual y elude mecanismos de seguridad existentes, que operan solo sobre salidas y acciones de herramientas.

LCGuard aborda esto con entrenamiento adversarial. Un modelo aprende a reconstruir entradas sensibles a partir de artefactos de caché transmitidos. Simultáneamente, LCGuard aprende una transformación a nivel de representación que minimiza lo que el adversario puede recuperar mientras preserva la semántica relevante para agentes downstream. El framework cubre las tres topologías multi-agentes primarias — secuencial, jerárquica y basada en grafo — con artefactos de caché KV sirviendo como bordes de comunicación. Es agnóstico con respecto al modelo; el paper evalúa entre múltiples familias de modelos.

Empíricamente, LCGuard reduce consistentemente las fugas basadas en reconstrucción y las tasas de éxito de ataque manteniendo un desempeño de tarea competitivo comparado con baselines estándar de compartición KV. Ningún delta de error de reconstrucción específico, puntuaciones de precisión de tarea o números de overhead de latencia se divulgan. Esta es una contribución de investigación pura: el paper formaliza la amenaza, propone la mitigación e informa resultados direccionales. Evidencia de despliegue en producción no existe en esta etapa.

Preguntas abiertas clave para evaluación en producción: el bucle de entrenamiento adversarial agrega un costo en tiempo de entrenamiento que el paper no cuantifica. El framework asume un adversario poderoso entrenado específicamente en artefactos de caché compartido, lo cual es apropiado para diseño de seguridad de peor caso pero puede ser conservador para algunos despliegues. El intercambio de precisión contra mensajería de agentes basada en texto — la opción más simple y segura que la mayoría de los sistemas en producción usan — no se caracteriza directamente. El trabajo anterior de seguridad de caché KV se orienta al aislamiento a nivel de servicio en entornos multi-tenant (vLLM, SGLang), no al compartición KV intencional entre agentes, por lo que los controles de infraestructura existentes no se transfieren.

Si está diseñando una capa de comunicación latente de compartición KV para sistemas multi-agentes o evaluando si debe cambiar de mensajería de agentes basada en texto, el aislamiento a nivel de representación debe ser un requisito de diseño de primera clase, no un parche posterior. LCGuard proporciona la formalización de amenaza y un esquema de entrenamiento adversarial. Deberá hacer benchmark del overhead de entrenamiento y el delta de precisión contra su propia carga de trabajo antes de considerarlo listo para producción.

Sources

LCGuard is a framework for safe KV-based latent communication in multi-agent LLM systems, from Rensselaer Polytechnic Institute and IBM Research
"we introduce LCGuard (Latent Communication Guard), a framework for safe KV-based latent communication in multi-agent LLM systems"
arxiv.org ↗
KV caches encode contextual inputs, intermediate reasoning states, and agent-specific information, creating an opaque channel through which sensitive content may propagate across agents without explicit textual disclosure
"KV caches also encode contextual inputs, intermediate reasoning states, and agent-specific information, creating an opaque channel through which sensitive content may propagate across agents without explicit textual disclosure"
arxiv.org ↗
Text-based inter-agent communication is inefficient and lossy: agents repeatedly decode, tokenize, and reconstruct semantic state across communication steps
"this paradigm is inefficient and lossy: agents repeatedly decode, tokenize, and reconstruct semantic state across communication steps"
arxiv.org ↗
By directly transferring KV representations, agents can avoid redundant computation and preserve richer semantic structure than text-based messages
"By directly transferring these representations, agents can avoid redundant computation and preserve richer semantic structure than text-based messages"
arxiv.org ↗
An adversary with access to shared caches — through compromised agents, logging infrastructure, or auxiliary models — can train a decoder to reconstruct underlying inputs at the representation level and at inference time, without requiring explicit textual disclosure
"An adversary with access to shared caches, for example through compromised agents, logging infrastructure, or auxiliary models, can exploit this channel by training a decoder to reconstruct underlying inputs. Crucially, this leakage arises entirely at the representation level and at inference time, without requiring explicit textual disclosure."
arxiv.org ↗
Existing safety mechanisms in multi-agent systems operate over generated outputs or tool actions and do not constrain what is transmitted through latent representations
"Safety mechanisms in multi-agent systems typically operate over generated outputs or tool actions and therefore do not constrain what is transmitted through latent representations"
arxiv.org ↗
LCGuard uses an adversarial training formulation in which the adversary learns to reconstruct sensitive inputs, while LCGuard learns transformations that preserve task-relevant semantics and reduce reconstructable information
"an adversarial training formulation in which the adversary learns to reconstruct sensitive inputs, while LCGuard learns transformations that preserve task-relevant semantics and reduce reconstructable information"
arxiv.org ↗
LCGuard covers sequential, hierarchical, and graph-based multi-agent topologies, with KV cache artifacts serving as the communication edges
"Multi-agent communication topologies: sequential, hierarchical, and graph-based. Edges carry KV cache latent artifacts"
arxiv.org ↗
LCGuard consistently reduces reconstruction-based leakage and attack success rates while maintaining competitive task performance compared to standard KV-sharing baselines
"LCGuard consistently reduces reconstruction-based leakage and attack success rates while maintaining competitive task performance compared to standard KV-sharing baselines"
arxiv.org ↗
Prior KV-cache security work focuses on isolation, eviction, or system-level controls in serving environments, rather than on the information content of caches intentionally shared across agents
"prior work on KV-cache security focuses on isolation, eviction, or system-level controls in serving environments, rather than on the information content of caches intentionally shared across agents"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Rensselaer e IBM Exponen Fuga de KV Cache en LLMs Multi-Agentes

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.