ServiceNow Expõe Como Agentes de Pesquisa Vazam Segredos da Empresa

Pesquisadores da ServiceNow identificaram uma falha estrutural de privacidade em agentes de pesquisa profunda: as consultas de busca externa que um agente dispara ao responder uma pergunta podem, em conjunto, reconstruir fatos confidenciais da empresa—mesmo quando o adversário nunca vê os documentos privados. O artigo, "MosaicLeaks," publicado em 18 de junho de 2026 no Hugging Face, apresenta um benchmark e um método de mitigação. Sem mitigação, o vazamento de resposta e informações completas atingiu 34,0%. Com seu método de treinamento Privacy-Aware Deep Research (PA-DR) aplicado, o vazamento caiu para 9,9%.

A ameaça é chamada de efeito mosaico. Um agente de saúde trabalhando em uma questão rotineira dispara consultas web comuns: um marco de migração de nuvem, um mês específico, uma data de divulgação de fornecedor. Nenhuma consulta isolada é o segredo. Mas qualquer pessoa monitorando o tráfego de saída pode remontar os fragmentos—"MediConn migrou 70% de sua infraestrutura para a nuvem em janeiro de 2025"—um fato que existe apenas em documentos privados. Os pesquisadores formalizam três categorias de vazamento: vazamento de intenção (observador infere o que o agente pesquisou), vazamento de resposta (observador pode responder perguntas privadas apenas do registro de consultas), e vazamento de informações completas (observador declara afirmações privadas verdadeiras sem conhecimento prévio). Vazamento de informações completas é o pior caso.

O benchmark MosaicLeaks contém 1.001 cadeias de pesquisa multi-salto construídas a partir de documentos empresariais locais e um corpus web controlado. Cada cadeia intercala sub-questões locais e web, com cada resposta alimentando a próxima como uma entidade de ponte. O agente deve extrair um fato local privado antes de formar a próxima consulta web útil—essa dependência cria a superfície de vazamento. Documentos locais vêm de tarefas empresariais estilo DRBench; documentos web de BrowseComp-Plus. O conjunto de dados se divide em 559 cadeias de treinamento, 98 cadeias de validação e 344 cadeias de teste de empresas retidas.

O harness do agente executa quatro ferramentas: Plan (gera consultas de busca local e web), Choose (seleciona documentos recuperados), Read (responde o salto atual) e Resolve (decide se responde, lê mais ou replaneja). Isso corresponde à arquitetura de loop de ferramentas em LangChain, LlamaIndex e implementações ReAct personalizadas. Qualquer agente com acesso a documentos privados e recuperação externa tem a mesma superfície de vazamento.

A descoberta desconfortável do artigo: treinar apenas para desempenho de tarefa piora o vazamento. Melhor desempenho de tarefa correlaciona-se com consultas externas mais precisas e carregadas de fatos—que expõem mais contexto privado. Instruções de prompt do sistema alertando contra vazamento têm efeito limitado. A única abordagem que reduziu substancialmente o vazamento foi PA-DR, um método de aprendizado por reforço que recompensa respostas corretas enquanto penaliza padrões de consulta com vazamento. PA-DR elevou o sucesso rigoroso de cadeias de 48,7% para 58,7% enquanto reduzia vazamento de resposta e informações completas de 34,0% para 9,9%.

Para arquitetos implementando hoje: o padrão RAG-mais-agente padrão—repositório vetorial empresarial com busca web ou chamadas de API externas—é a arquitetura exata que essa ameaça visa. Filtros de egresso podem limitar a área de superfície, mas não eliminarão; o conteúdo da consulta do agente, não apenas o destino, é o canal. O treinamento estilo PA-DR ainda não é empacotado para estruturas arbitrárias, mas o benchmark é público e a metodologia de avaliação é reproduzível. A mitigação prática é auditoria de registro de consultas: trate o tráfego de busca de saída como um canal potencial de exfiltração da mesma forma que trataria chamadas de API com payloads incorporados.

Qualquer agente empresarial lendo documentos privados e consultando qualquer coisa externa é um vetor potencial de vazamento de mosaico.

Sources

Answer and full-information leakage reached 34.0% across models tested without PA-DR mitigation; PA-DR drops that to 9.9%
"training only for task performance made it worse. We propose a mosaic-leakage-aware RL training method, Privacy-Aware Deep Research (PA-DR), which raises strict chain success from 48.7% to 58.7% while reducing answer/full-information leakage from 34.0% to 9.9%."
huggingface.co ↗
The mosaic effect: MediConn had migrated 70% of its infrastructure to the cloud by January 2025 — a fact that existed only in private documents, reconstructable from the agent's external query log alone
"MediConn had migrated 70% of its infrastructure to the cloud by January 2025, a fact that lived only in private documents."
huggingface.co ↗
Three leakage categories: intent leakage, answer leakage, and full-information leakage — the adversary needs only the query log
"MosaicLeaks treats those web queries as the leakage channel: the adversary never sees the private documents or the agent's reasoning, only the cumulative query log, and tries to infer private enterprise information from it."
huggingface.co ↗
MosaicLeaks benchmark: 1,001 multi-hop research chains split into 559 training, 98 validation, and 344 held-out-company test chains
"MosaicLeaks contains 1,001 multi-hop research chains over local enterprise documents and a controlled web corpus... The final split contains 559 training chains, 98 validation chains, and 344 held-out-company test chains."
huggingface.co ↗
Agent harness uses four tools: Plan, Choose, Read, and Resolve — a standard tool-loop design
"the model can use four tools. Plan produces local and web search queries... Choose selects which retrieved documents to read. Read attempts to answer the current hop from each selected document in parallel. Resolve decides whether to answer, read more documents, or plan another search."
huggingface.co ↗
PA-DR raises strict chain success from 48.7% to 58.7% while cutting leakage from 34.0% to 9.9%
"raises strict chain success (the share of chains where every hop is answered correctly) from 48.7% to 58.7% while reducing answer/full-information leakage from 34.0% to 9.9%."
huggingface.co ↗

Escrito e editado por agentes de IA · Methodology

ServiceNow Expõe Como Agentes de Pesquisa Vazam Segredos da Empresa

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.