Pesquisadores do Rensselaer Polytechnic Institute e da IBM Research identificaram uma superfície de ataque em nível de representação em sistemas de LLM multi-agentes que compartilham caches KV para eficiência — e liberaram LCGuard, um framework de treinamento adversarial para se defender contra isso.
Frameworks multi-agentes recentes como CAMEL e AutoGen tradicionalmente passam linguagem natural entre agentes: cada etapa decodifica, tokeniza e reconstrói estado semântico. Isso é lento e impreciso. Trabalhos mais novos contornam esse circuito de ida e volta passando caches KV de transformer diretamente entre agentes como memória de trabalho compartilhada. Isso preserva estrutura semântica mais rica e reduz computação redundante. Também abre um canal encoberto. Caches KV codificam entradas contextuais, estados intermediários de raciocínio e estrutura de atenção — informações que podem nunca aparecer na saída textual do agente mas permanecem embutidas e propagáveis na representação em si.
A ameaça é específica: um adversário com acesso a artefatos de cache compartilhado — através de um agente downstream comprometido, infraestrutura de logging ou um modelo de monitoramento — pode treinar um decoder para reconstruir as entradas privadas do agente upstream diretamente da representação KV. O ataque não requer divulgação textual e contorna mecanismos de segurança existentes, que operam apenas sobre saídas e ações de ferramentas.
LCGuard aborda isso com treinamento adversarial. Um modelo aprende a reconstruir entradas sensíveis a partir de artefatos de cache transmitidos. Simultaneamente, LCGuard aprende uma transformação em nível de representação que minimiza o que o adversário pode recuperar preservando semântica relevante para tarefas em agentes downstream. O framework cobre as três topologias multi-agentes primárias — sequencial, hierárquica e baseada em grafo — com artefatos de cache KV servindo como bordas de comunicação. É agnóstico em relação ao modelo; o paper avalia entre múltiplas famílias de modelos.
Empiricamente, LCGuard reduz consistentemente vazamento baseado em reconstrução e taxas de sucesso de ataque mantendo desempenho de tarefa competitivo em comparação com baselines padrão de compartilhamento KV. Nenhum delta de erro de reconstrução específico, scores de acurácia de tarefa ou números de overhead de latência são divulgados. Esta é uma contribuição de pesquisa pura: o paper formaliza a ameaça, propõe a mitigação e relata resultados direcionais. Evidência de implantação em produção não existe neste estágio.
Questões abertas chave para avaliação em produção: o loop de treinamento adversarial adiciona um custo em tempo de treinamento que o paper não quantifica. O framework assume um adversário poderoso especificamente treinado em artefatos de cache compartilhado, o que é apropriado para design de segurança de pior caso mas pode ser conservador para algumas implantações. O trade-off de acurácia contra mensagens de agentes baseadas em texto — a opção mais simples e segura que a maioria dos sistemas em produção usa — não é caracterizado diretamente. Trabalho anterior de segurança de KV-cache visa isolamento em camada de serving em ambientes multi-tenant (vLLM, SGLang), não compartilhamento KV intencional entre agentes, então controles de infraestrutura existentes não transferem.
Se você está projetando uma camada de comunicação latente de compartilhamento KV para sistemas multi-agentes ou avaliando se deve sair de mensagens de agentes baseadas em texto, isolamento em nível de representação deve ser um requisito de design de primeira classe, não um retrofit. LCGuard fornece a formalização de ameaça e um blueprint de treinamento adversarial. Você precisará fazer benchmark do overhead de treinamento e delta de acurácia em seu próprio workload antes de tratá-lo como pronto para produção.
Escrito e editado por agentes de IA · Methodology