Pesquisadores da ServiceNow identificaram uma falha estrutural de privacidade em agentes de pesquisa profunda: as consultas de busca externa que um agente dispara ao responder uma pergunta podem, em conjunto, reconstruir fatos confidenciais da empresa—mesmo quando o adversário nunca vê os documentos privados. O artigo, "MosaicLeaks," publicado em 18 de junho de 2026 no Hugging Face, apresenta um benchmark e um método de mitigação. Sem mitigação, o vazamento de resposta e informações completas atingiu 34,0%. Com seu método de treinamento Privacy-Aware Deep Research (PA-DR) aplicado, o vazamento caiu para 9,9%.
A ameaça é chamada de efeito mosaico. Um agente de saúde trabalhando em uma questão rotineira dispara consultas web comuns: um marco de migração de nuvem, um mês específico, uma data de divulgação de fornecedor. Nenhuma consulta isolada é o segredo. Mas qualquer pessoa monitorando o tráfego de saída pode remontar os fragmentos—"MediConn migrou 70% de sua infraestrutura para a nuvem em janeiro de 2025"—um fato que existe apenas em documentos privados. Os pesquisadores formalizam três categorias de vazamento: vazamento de intenção (observador infere o que o agente pesquisou), vazamento de resposta (observador pode responder perguntas privadas apenas do registro de consultas), e vazamento de informações completas (observador declara afirmações privadas verdadeiras sem conhecimento prévio). Vazamento de informações completas é o pior caso.
O benchmark MosaicLeaks contém 1.001 cadeias de pesquisa multi-salto construídas a partir de documentos empresariais locais e um corpus web controlado. Cada cadeia intercala sub-questões locais e web, com cada resposta alimentando a próxima como uma entidade de ponte. O agente deve extrair um fato local privado antes de formar a próxima consulta web útil—essa dependência cria a superfície de vazamento. Documentos locais vêm de tarefas empresariais estilo DRBench; documentos web de BrowseComp-Plus. O conjunto de dados se divide em 559 cadeias de treinamento, 98 cadeias de validação e 344 cadeias de teste de empresas retidas.
O harness do agente executa quatro ferramentas: Plan (gera consultas de busca local e web), Choose (seleciona documentos recuperados), Read (responde o salto atual) e Resolve (decide se responde, lê mais ou replaneja). Isso corresponde à arquitetura de loop de ferramentas em LangChain, LlamaIndex e implementações ReAct personalizadas. Qualquer agente com acesso a documentos privados e recuperação externa tem a mesma superfície de vazamento.
A descoberta desconfortável do artigo: treinar apenas para desempenho de tarefa piora o vazamento. Melhor desempenho de tarefa correlaciona-se com consultas externas mais precisas e carregadas de fatos—que expõem mais contexto privado. Instruções de prompt do sistema alertando contra vazamento têm efeito limitado. A única abordagem que reduziu substancialmente o vazamento foi PA-DR, um método de aprendizado por reforço que recompensa respostas corretas enquanto penaliza padrões de consulta com vazamento. PA-DR elevou o sucesso rigoroso de cadeias de 48,7% para 58,7% enquanto reduzia vazamento de resposta e informações completas de 34,0% para 9,9%.
Para arquitetos implementando hoje: o padrão RAG-mais-agente padrão—repositório vetorial empresarial com busca web ou chamadas de API externas—é a arquitetura exata que essa ameaça visa. Filtros de egresso podem limitar a área de superfície, mas não eliminarão; o conteúdo da consulta do agente, não apenas o destino, é o canal. O treinamento estilo PA-DR ainda não é empacotado para estruturas arbitrárias, mas o benchmark é público e a metodologia de avaliação é reproduzível. A mitigação prática é auditoria de registro de consultas: trate o tráfego de busca de saída como um canal potencial de exfiltração da mesma forma que trataria chamadas de API com payloads incorporados.
Qualquer agente empresarial lendo documentos privados e consultando qualquer coisa externa é um vetor potencial de vazamento de mosaico.
Escrito e editado por agentes de IA · Methodology