Rensselaer e IBM Expõem Vazamento de KV Cache em LLMs Multi-Agentes

Pesquisadores do Rensselaer Polytechnic Institute e da IBM Research identificaram uma superfície de ataque em nível de representação em sistemas de LLM multi-agentes que compartilham caches KV para eficiência — e liberaram LCGuard, um framework de treinamento adversarial para se defender contra isso.

Frameworks multi-agentes recentes como CAMEL e AutoGen tradicionalmente passam linguagem natural entre agentes: cada etapa decodifica, tokeniza e reconstrói estado semântico. Isso é lento e impreciso. Trabalhos mais novos contornam esse circuito de ida e volta passando caches KV de transformer diretamente entre agentes como memória de trabalho compartilhada. Isso preserva estrutura semântica mais rica e reduz computação redundante. Também abre um canal encoberto. Caches KV codificam entradas contextuais, estados intermediários de raciocínio e estrutura de atenção — informações que podem nunca aparecer na saída textual do agente mas permanecem embutidas e propagáveis na representação em si.

A ameaça é específica: um adversário com acesso a artefatos de cache compartilhado — através de um agente downstream comprometido, infraestrutura de logging ou um modelo de monitoramento — pode treinar um decoder para reconstruir as entradas privadas do agente upstream diretamente da representação KV. O ataque não requer divulgação textual e contorna mecanismos de segurança existentes, que operam apenas sobre saídas e ações de ferramentas.

LCGuard aborda isso com treinamento adversarial. Um modelo aprende a reconstruir entradas sensíveis a partir de artefatos de cache transmitidos. Simultaneamente, LCGuard aprende uma transformação em nível de representação que minimiza o que o adversário pode recuperar preservando semântica relevante para tarefas em agentes downstream. O framework cobre as três topologias multi-agentes primárias — sequencial, hierárquica e baseada em grafo — com artefatos de cache KV servindo como bordas de comunicação. É agnóstico em relação ao modelo; o paper avalia entre múltiplas famílias de modelos.

Empiricamente, LCGuard reduz consistentemente vazamento baseado em reconstrução e taxas de sucesso de ataque mantendo desempenho de tarefa competitivo em comparação com baselines padrão de compartilhamento KV. Nenhum delta de erro de reconstrução específico, scores de acurácia de tarefa ou números de overhead de latência são divulgados. Esta é uma contribuição de pesquisa pura: o paper formaliza a ameaça, propõe a mitigação e relata resultados direcionais. Evidência de implantação em produção não existe neste estágio.

Questões abertas chave para avaliação em produção: o loop de treinamento adversarial adiciona um custo em tempo de treinamento que o paper não quantifica. O framework assume um adversário poderoso especificamente treinado em artefatos de cache compartilhado, o que é apropriado para design de segurança de pior caso mas pode ser conservador para algumas implantações. O trade-off de acurácia contra mensagens de agentes baseadas em texto — a opção mais simples e segura que a maioria dos sistemas em produção usa — não é caracterizado diretamente. Trabalho anterior de segurança de KV-cache visa isolamento em camada de serving em ambientes multi-tenant (vLLM, SGLang), não compartilhamento KV intencional entre agentes, então controles de infraestrutura existentes não transferem.

Se você está projetando uma camada de comunicação latente de compartilhamento KV para sistemas multi-agentes ou avaliando se deve sair de mensagens de agentes baseadas em texto, isolamento em nível de representação deve ser um requisito de design de primeira classe, não um retrofit. LCGuard fornece a formalização de ameaça e um blueprint de treinamento adversarial. Você precisará fazer benchmark do overhead de treinamento e delta de acurácia em seu próprio workload antes de tratá-lo como pronto para produção.

Sources

LCGuard is a framework for safe KV-based latent communication in multi-agent LLM systems, from Rensselaer Polytechnic Institute and IBM Research
"we introduce LCGuard (Latent Communication Guard), a framework for safe KV-based latent communication in multi-agent LLM systems"
arxiv.org ↗
KV caches encode contextual inputs, intermediate reasoning states, and agent-specific information, creating an opaque channel through which sensitive content may propagate across agents without explicit textual disclosure
"KV caches also encode contextual inputs, intermediate reasoning states, and agent-specific information, creating an opaque channel through which sensitive content may propagate across agents without explicit textual disclosure"
arxiv.org ↗
Text-based inter-agent communication is inefficient and lossy: agents repeatedly decode, tokenize, and reconstruct semantic state across communication steps
"this paradigm is inefficient and lossy: agents repeatedly decode, tokenize, and reconstruct semantic state across communication steps"
arxiv.org ↗
By directly transferring KV representations, agents can avoid redundant computation and preserve richer semantic structure than text-based messages
"By directly transferring these representations, agents can avoid redundant computation and preserve richer semantic structure than text-based messages"
arxiv.org ↗
An adversary with access to shared caches — through compromised agents, logging infrastructure, or auxiliary models — can train a decoder to reconstruct underlying inputs at the representation level and at inference time, without requiring explicit textual disclosure
"An adversary with access to shared caches, for example through compromised agents, logging infrastructure, or auxiliary models, can exploit this channel by training a decoder to reconstruct underlying inputs. Crucially, this leakage arises entirely at the representation level and at inference time, without requiring explicit textual disclosure."
arxiv.org ↗
Existing safety mechanisms in multi-agent systems operate over generated outputs or tool actions and do not constrain what is transmitted through latent representations
"Safety mechanisms in multi-agent systems typically operate over generated outputs or tool actions and therefore do not constrain what is transmitted through latent representations"
arxiv.org ↗
LCGuard uses an adversarial training formulation in which the adversary learns to reconstruct sensitive inputs, while LCGuard learns transformations that preserve task-relevant semantics and reduce reconstructable information
"an adversarial training formulation in which the adversary learns to reconstruct sensitive inputs, while LCGuard learns transformations that preserve task-relevant semantics and reduce reconstructable information"
arxiv.org ↗
LCGuard covers sequential, hierarchical, and graph-based multi-agent topologies, with KV cache artifacts serving as the communication edges
"Multi-agent communication topologies: sequential, hierarchical, and graph-based. Edges carry KV cache latent artifacts"
arxiv.org ↗
LCGuard consistently reduces reconstruction-based leakage and attack success rates while maintaining competitive task performance compared to standard KV-sharing baselines
"LCGuard consistently reduces reconstruction-based leakage and attack success rates while maintaining competitive task performance compared to standard KV-sharing baselines"
arxiv.org ↗
Prior KV-cache security work focuses on isolation, eviction, or system-level controls in serving environments, rather than on the information content of caches intentionally shared across agents
"prior work on KV-cache security focuses on isolation, eviction, or system-level controls in serving environments, rather than on the information content of caches intentionally shared across agents"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Rensselaer e IBM Expõem Vazamento de KV Cache em LLMs Multi-Agentes

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.