LCGuard Corrige Vazamento de KV-Cache em Sistemas Multi-Agent

Pesquisadores do Rensselaer Polytechnic Institute e IBM Research publicaram o LCGuard, um framework que intercepta e desinfeta payloads de cache KV de transformers antes de cruzarem limites de agentes em sistemas multi-agent com LLM. Fecha um canal de vazamento que ferramentas de segurança existentes ignoram completamente.

A ameaça é simples. Caches KV codificam a entrada contextual completa, o estado de raciocínio intermediário e a estrutura de atenção do agente gerador. Quando um agente downstream consome esse cache diretamente — como frameworks como LatentMAS e KVComm foram projetados para habilitar — ele também ingere uma representação de alta largura de banda e semanticamente densa de tudo que o agente upstream processou. Um adversário com acesso de leitura ao cache compartilhado, através de um agente comprometido, um sidecar de logging ou um modelo auxiliar, pode treinar um decodificador para reconstruir entradas sensíveis em tempo de inferência. O ataque opera inteiramente em nível de representação.

O LCGuard formaliza isso como uma ameaça de reconstrução: um artefato de cache é classificado como inseguro se um decodificador adversarial pode recuperar entradas sensíveis específicas do agente dele. O framework envolve um loop de treinamento adversarial em torno da camada de compartilhamento de cache. O adversário aprende a reconstruir entradas sensíveis a partir de tensores de cache transmitidos. LCGuard aprende simultaneamente transformações em nível de representação que degradam fidelidade de reconstrução preservando semântica relevante para tarefa. O resultado é um passo de desinfecção de cache que executa antes de qualquer artefato cruzar um limite de agente, visando topologias multi-agent sequenciais, hierárquicas e baseadas em grafo.

Resultados empíricos em múltiplas famílias de modelo e benchmarks multi-agent mostram que o LCGuard reduz consistentemente vazamento baseado em reconstrução e taxas de sucesso de ataque comparado a baselines de compartilhamento KV padrão. O paper não divulga pontuações exatas de reconstrução, deltas de acurácia de tarefa, overhead de latência ou custo de memória. A alegação de "desempenho competitivo em tarefas" não é quantificada.

LCGuard adiciona uma camada de transformação aprendida para cada transferência de cache inter-agente. Essa transformação deve ser treinada por família de modelo, o que significa que custo de onboarding escala com o número de emparelhamentos distintos de modelo em uma implantação. O paper não divulga nenhum orçamento de latência para o passo de desinfecção em si, nenhuma penalidade de throughput de token e nenhum overhead de memória GPU relativo ao compartilhamento de cache bruto. Para um sistema já pagando o prêmio de computação de comunicação latente sobre mensageria de agente baseada em texto, um overhead adicional não divulgado é um risco de integração real.

A superfície de ataque que o LCGuard endereça está expandindo. Trabalho relacionado em NDSS demonstrou que compartilhamento desprotegido de KV-cache em ambientes multi-tenant habilita reconstrução de prompt em taxas quase perfeitas. O caso de comunicação latente estudado aqui é distinto — compartilhamento de cache intencional entre agentes cooperativos em vez de vazamento cross-tenant — mas a vulnerabilidade subjacente é a mesma: tensores KV não são opacos. Qualquer time usando LatentMAS, KVComm ou frameworks similares para passar memória de trabalho entre agentes deve tratar esse canal como equivalente a passar texto plano até ter controles de vazamento explícitos em lugar.

O paper vem do IBM Research e RPI. Nenhuma evidência de implantação de produção ou lançamento de código aberto está vinculada. Estabelece o modelo de ameaça e uma receita de treinamento adversarial. Não entrega uma biblioteca pronta. Se você está usando passagem de KV-cache como substrato de comunicação inter-agente para eficiência, você agora tem uma classe de ataque documentada e uma abordagem de mitigação baseada em treinamento — mas você precisará implementar, fazer benchmark e ajustar a camada de transformação do LCGuard você mesmo antes de embarcá-lo contra workloads sensíveis.

Sources

LCGuard is a framework for safe KV-based latent communication in multi-agent LLM systems from RPI and IBM Research
"we introduce LCGuard (Latent Communication Guard), a framework for safe KV-based latent communication in multi-agent LLM systems"
arxiv.org ↗
KV caches encode contextual inputs, intermediate reasoning states, and agent-specific information, forming an opaque channel for leakage
"KV caches also encode contextual inputs, intermediate reasoning states, and agent-specific information, creating an opaque channel through which sensitive content may propagate across agents without explicit textual disclosure"
arxiv.org ↗
LCGuard formalizes leakage through reconstruction: a cache artifact is unsafe if an adversarial decoder can recover sensitive inputs from it
"We formalize representation-level sensitive information leakage operationally through reconstruction: a shared cache artifact is unsafe if an adversarial decoder can recover agent-specific sensitive inputs from it"
arxiv.org ↗
LCGuard uses adversarial training where the adversary learns to reconstruct sensitive inputs while LCGuard learns transformations that preserve task-relevant semantics
"This leads to an adversarial training formulation in which the adversary learns to reconstruct sensitive inputs, while LCGuard learns transformations that preserve task-relevant semantics and reduce reconstructable information"
arxiv.org ↗
LCGuard reduces reconstruction-based leakage and attack success rates while maintaining competitive task performance versus standard KV-sharing baselines
"LCGuard consistently reduces reconstruction-based leakage and attack success rates while maintaining competitive task performance compared to standard KV-sharing baselines"
arxiv.org ↗
The leakage arises at the representation level at inference time, without requiring explicit textual disclosure, and adversaries with access to shared caches can exploit this channel by training a decoder
"An adversary with access to shared caches, for example through compromised agents, logging infrastructure, or auxiliary models, can exploit this channel by training a decoder to reconstruct underlying inputs. Crucially, this leakage arises entirely at the representation level and at inference time, without requiring explicit textual disclosure."
arxiv.org ↗
Existing safety mechanisms in multi-agent systems operate over generated outputs or tool actions and do not constrain what is transmitted through latent representations
"Safety mechanisms in multi-agent systems typically operate over generated outputs or tool actions and therefore do not constrain what is transmitted through latent representations."
arxiv.org ↗
LCGuard covers sequential, hierarchical, and graph-based multi-agent topologies with edges carrying KV cache latent artifacts
"Multi-agent communication topologies: sequential, hierarchical, and graph-based. Edges carry KV cache latent artifacts m_ij."
arxiv.org ↗
Unprotected KV-cache sharing in multi-tenant serving environments enables near-perfect prompt reconstruction
"Our results show that the adversary can achieve an average success rate of 99% in fully or partially reversing the prompt input"
ndss-symposium.org ↗

Escrito e editado por agentes de IA · Methodology

LCGuard Corrige Vazamento de KV-Cache em Sistemas Multi-Agent

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.