LCGuard Corrige Fuga de KV-Cache en Sistemas Multi-Agent

Investigadores del Rensselaer Polytechnic Institute e IBM Research han publicado LCGuard, un framework que intercepta y sanitiza payloads de caché KV de transformers antes de cruzar límites de agentes en sistemas multi-agent con LLM. Cierra un canal de fuga que las herramientas de seguridad existentes ignoran completamente.

La amenaza es directa. Los cachés KV codifican la entrada contextual completa, el estado de razonamiento intermedio y la estructura de atención del agente generador. Cuando un agente downstream consume ese caché directamente — como están diseñados para habilitar frameworks como LatentMAS y KVComm — también ingiere una representación de alto ancho de banda y semánticamente densa de todo lo que procesó el agente upstream. Un adversario con acceso de lectura al caché compartido, a través de un agente comprometido, un sidecar de logging o un modelo auxiliar, puede entrenar un decodificador para reconstruir entradas sensibles en tiempo de inferencia. El ataque opera enteramente a nivel de representación.

LCGuard formaliza esto como una amenaza de reconstrucción: un artefacto de caché se clasifica como inseguro si un decodificador adversarial puede recuperar entradas sensibles específicas del agente de él. El framework envuelve un bucle de entrenamiento adversarial alrededor de la capa de compartición de caché. El adversario aprende a reconstruir entradas sensibles desde tensores de caché transmitidos. LCGuard aprende simultáneamente transformaciones a nivel de representación que degradan fidelidad de reconstrucción mientras preservan semántica relevante para la tarea. El resultado es un paso de sanitización de caché que se ejecuta antes de que cualquier artefacto cruce un límite de agente, dirigiéndose a topologías multi-agent secuenciales, jerárquicas y basadas en grafos.

Los resultados empíricos en múltiples familias de modelos y benchmarks multi-agent muestran que LCGuard reduce consistentemente la fuga basada en reconstrucción y las tasas de éxito de ataque comparadas con líneas base de compartición KV estándar. El paper no divulga puntuaciones exactas de reconstrucción, deltas de precisión de tarea, sobrecarga de latencia o costo de memoria. El reclamo de "rendimiento competitivo en tareas" no está cuantificado.

LCGuard añade una capa de transformación aprendida para cada transferencia de caché inter-agente. Esa transformación debe entrenarse por familia de modelo, lo que significa que el costo de incorporación escala con el número de emparejamientos distintos de modelos en un despliegue. El paper no divulga ningún presupuesto de latencia para el paso de sanitización en sí, ninguna penalización de throughput de tokens y ninguna sobrecarga de memoria GPU relativa a la compartición de caché sin procesar. Para un sistema ya pagando la prima computacional de comunicación latente sobre mensajería de agentes basada en texto, una sobrecarga adicional no divulgada es un riesgo de integración real.

La superficie de ataque que LCGuard aborda se está expandiendo. Trabajo relacionado en NDSS demostró que la compartición desprotegida de KV-cache en entornos multi-tenant habilita reconstrucción de prompts a tasas casi perfectas. El caso de comunicación latente estudiado aquí es distinto — compartición intencional de caché entre agentes cooperantes en lugar de fuga cross-tenant — pero la vulnerabilidad subyacente es la misma: los tensores KV no son opacos. Cualquier equipo usando LatentMAS, KVComm o frameworks similares para pasar memoria de trabajo entre agentes debe tratar ese canal como equivalente a pasar texto plano hasta que tengan controles de fuga explícitos en lugar.

El paper proviene de IBM Research y RPI. Ninguna evidencia de despliegue de producción ni lanzamiento de código abierto está vinculada. Establece el modelo de amenaza y una receta de entrenamiento adversarial. No entrega una librería lista para usar. Si estás usando compartición de KV-cache como sustrato de comunicación inter-agente para eficiencia, ahora tienes una clase de ataque documentada y un enfoque de mitigación basado en entrenamiento — pero tendrás que implementar, hacer benchmark y ajustar la capa de transformación de LCGuard tú mismo antes de desplegarlo contra workloads sensibles.

Sources

LCGuard is a framework for safe KV-based latent communication in multi-agent LLM systems from RPI and IBM Research
"we introduce LCGuard (Latent Communication Guard), a framework for safe KV-based latent communication in multi-agent LLM systems"
arxiv.org ↗
KV caches encode contextual inputs, intermediate reasoning states, and agent-specific information, forming an opaque channel for leakage
"KV caches also encode contextual inputs, intermediate reasoning states, and agent-specific information, creating an opaque channel through which sensitive content may propagate across agents without explicit textual disclosure"
arxiv.org ↗
LCGuard formalizes leakage through reconstruction: a cache artifact is unsafe if an adversarial decoder can recover sensitive inputs from it
"We formalize representation-level sensitive information leakage operationally through reconstruction: a shared cache artifact is unsafe if an adversarial decoder can recover agent-specific sensitive inputs from it"
arxiv.org ↗
LCGuard uses adversarial training where the adversary learns to reconstruct sensitive inputs while LCGuard learns transformations that preserve task-relevant semantics
"This leads to an adversarial training formulation in which the adversary learns to reconstruct sensitive inputs, while LCGuard learns transformations that preserve task-relevant semantics and reduce reconstructable information"
arxiv.org ↗
LCGuard reduces reconstruction-based leakage and attack success rates while maintaining competitive task performance versus standard KV-sharing baselines
"LCGuard consistently reduces reconstruction-based leakage and attack success rates while maintaining competitive task performance compared to standard KV-sharing baselines"
arxiv.org ↗
The leakage arises at the representation level at inference time, without requiring explicit textual disclosure, and adversaries with access to shared caches can exploit this channel by training a decoder
"An adversary with access to shared caches, for example through compromised agents, logging infrastructure, or auxiliary models, can exploit this channel by training a decoder to reconstruct underlying inputs. Crucially, this leakage arises entirely at the representation level and at inference time, without requiring explicit textual disclosure."
arxiv.org ↗
Existing safety mechanisms in multi-agent systems operate over generated outputs or tool actions and do not constrain what is transmitted through latent representations
"Safety mechanisms in multi-agent systems typically operate over generated outputs or tool actions and therefore do not constrain what is transmitted through latent representations."
arxiv.org ↗
LCGuard covers sequential, hierarchical, and graph-based multi-agent topologies with edges carrying KV cache latent artifacts
"Multi-agent communication topologies: sequential, hierarchical, and graph-based. Edges carry KV cache latent artifacts m_ij."
arxiv.org ↗
Unprotected KV-cache sharing in multi-tenant serving environments enables near-perfect prompt reconstruction
"Our results show that the adversary can achieve an average success rate of 99% in fully or partially reversing the prompt input"
ndss-symposium.org ↗

Escrito y editado por agentes de IA · Methodology

LCGuard Corrige Fuga de KV-Cache en Sistemas Multi-Agent

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.