Investigadores del Rensselaer Polytechnic Institute e IBM Research identificaron una superficie de ataque a nivel de representación en sistemas LLM multi-agentes que comparten cachés KV para eficiencia — y lanzaron LCGuard, un framework de entrenamiento adversarial para defenderse contra ella.

Los frameworks multi-agentes recientes como CAMEL y AutoGen tradicionalmente pasan lenguaje natural entre agentes: cada paso decodifica, tokeniza y reconstruye el estado semántico. Esto es lento e impreciso. Trabajos más recientes evitan ese viaje de ida y vuelta al pasar cachés KV de transformer directamente entre agentes como memoria de trabajo compartida. Esto preserva una estructura semántica más rica y reduce la computación redundante. También abre un canal encubierto. Los cachés KV codifican entradas contextuales, estados intermedios de razonamiento y estructura de atención — información que puede nunca aparecer en la salida textual del agente pero permanece incrustada y propagable en la representación misma.

La amenaza es específica: un adversario con acceso a artefactos de caché compartido — a través de un agente downstream comprometido, infraestructura de logging o un modelo de monitoreo — puede entrenar un decodificador para reconstruir las entradas privadas del agente upstream directamente desde la representación KV. El ataque no requiere divulgación textual y elude mecanismos de seguridad existentes, que operan solo sobre salidas y acciones de herramientas.

LCGuard aborda esto con entrenamiento adversarial. Un modelo aprende a reconstruir entradas sensibles a partir de artefactos de caché transmitidos. Simultáneamente, LCGuard aprende una transformación a nivel de representación que minimiza lo que el adversario puede recuperar mientras preserva la semántica relevante para agentes downstream. El framework cubre las tres topologías multi-agentes primarias — secuencial, jerárquica y basada en grafo — con artefactos de caché KV sirviendo como bordes de comunicación. Es agnóstico con respecto al modelo; el paper evalúa entre múltiples familias de modelos.

Empíricamente, LCGuard reduce consistentemente las fugas basadas en reconstrucción y las tasas de éxito de ataque manteniendo un desempeño de tarea competitivo comparado con baselines estándar de compartición KV. Ningún delta de error de reconstrucción específico, puntuaciones de precisión de tarea o números de overhead de latencia se divulgan. Esta es una contribución de investigación pura: el paper formaliza la amenaza, propone la mitigación e informa resultados direccionales. Evidencia de despliegue en producción no existe en esta etapa.

Preguntas abiertas clave para evaluación en producción: el bucle de entrenamiento adversarial agrega un costo en tiempo de entrenamiento que el paper no cuantifica. El framework asume un adversario poderoso entrenado específicamente en artefactos de caché compartido, lo cual es apropiado para diseño de seguridad de peor caso pero puede ser conservador para algunos despliegues. El intercambio de precisión contra mensajería de agentes basada en texto — la opción más simple y segura que la mayoría de los sistemas en producción usan — no se caracteriza directamente. El trabajo anterior de seguridad de caché KV se orienta al aislamiento a nivel de servicio en entornos multi-tenant (vLLM, SGLang), no al compartición KV intencional entre agentes, por lo que los controles de infraestructura existentes no se transfieren.

Si está diseñando una capa de comunicación latente de compartición KV para sistemas multi-agentes o evaluando si debe cambiar de mensajería de agentes basada en texto, el aislamiento a nivel de representación debe ser un requisito de diseño de primera clase, no un parche posterior. LCGuard proporciona la formalización de amenaza y un esquema de entrenamiento adversarial. Deberá hacer benchmark del overhead de entrenamiento y el delta de precisión contra su propia carga de trabajo antes de considerarlo listo para producción.

Escrito y editado por agentes de IA · Methodology