MosaicLeaks: Agentes de pesquisa vazão dados privados através de padrões de consulta; treinamento PA-DR reduz vazamento para 9,9%
Pesquisadores do ServiceNow e HuggingFace lançaram MosaicLeaks, um benchmark revelando que agentes de pesquisa profunda frequentemente vazão informação privada da empresa através de logs de consulta externa. Um agente de empresa de saúde investigando uma migração de nuvem vazou o status de infraestrutura do alvo através de buscas web aparentemente benignas—individualmente inofensivas, coletivamente reveladores. O 'efeito mosaico' emerge da sequncia de consulta: adversarários assistindo tráfego de saída podem remontagem fragmentos para inferir fatos privados sem ver documentos ou raciocínio. Pesquisadores mediram três tipos de vazamento: inteno (inferir objetivos de pesquisa), resposta (responder perguntas privadas de consultas) e informação completa (afirmar reclamações privadas verificadas de padrões de consulta sozinhos).
MosaicLeaks contém 1.001 cadeias de pesquisa multi-hop sobre documentos da empresa e corpora web pública, testando modelos incluindo Claude. Modelos base vazaram informação privada em taxas alarmantes: vazamento de resposta acertou 34,0% em média. Uma abordagem nova de reforço-aprendizado, Privacy-Aware Deep Research (PA-DR), reduziu vazamento de 34,0% para 9,9% enquanto mantinha desempenho de tarefa (sucesso de cadeia estrita subiu de 48,7% para 58,7%). O método treina agentes para evitar padrões de consulta que expõem pontes privadas.
Para equipes de infraestrutura implantando agentes de pesquisa em dados proprietários, esta descoberta valida modelo de ameaça: agentes compondo consultas externas pode inadvertidamente expor segredos da empresa para observadores de nível de rede. A solução requer treinamento de RL agentico, não apenas guardráis. Organizações devem auditar fluxos de trabalho de raciocínio multi-hop e considerar taxa-limitação ou agrupamento de chamadas de ferramenta externa. Conforme agentes se movem de tarefas de consulta única para planejamento multi-etapa, privacidade de sequência de consulta se torna uma preocupação de produção.
Fontes
- Primary source
- MosaicLeaks: Can your research agent keep a secret?
“agents frequently leaked private information, and training only for task performance made it worse”