ServiceNow Expone Cómo los Agentes de Investigación Filtran Secretos Empresariales

Los investigadores de ServiceNow descubrieron que los agentes autónomos entrenados para recuperar información pueden filtrar involuntariamente datos sensibles en sus resultados y patrones de búsqueda, incluso cuando se restringe a fuentes aprobadas. El modelo de amenaza se aplica a cualquier arquitectura de agente implementada contra sistemas de datos empresariales.

Los investigadores de ServiceNow han identificado una falla estructural de privacidad en agentes de investigación profunda: las consultas de búsqueda externa que un agente ejecuta al responder una pregunta pueden, en conjunto, reconstruir hechos confidenciales empresariales—incluso cuando el adversario nunca ve los documentos privados. El artículo "MosaicLeaks," publicado el 18 de junio de 2026 en Hugging Face, introduce un benchmark y un método de mitigación. Sin mitigación, la fuga de respuesta e información completa alcanzó 34,0%. Con su método de entrenamiento Privacy-Aware Deep Research (PA-DR) aplicado, la fuga disminuyó a 9,9%.

La amenaza se llama efecto mosaico. Un agente de salud trabajando a través de una pregunta rutinaria emite consultas web ordinarias: un hito de migración a la nube, un mes específico, una fecha de divulgación de proveedor. Ninguna consulta aislada es el secreto. Pero cualquiera que vigile el tráfico saliente puede rearmar los fragmentos—"MediConn migró el 70% de su infraestructura a la nube en enero de 2025"—un hecho que existe solo en documentos privados. Los investigadores formalizan tres categorías de fuga: fuga de intención (el observador deduce qué investigó el agente), fuga de respuesta (el observador puede responder preguntas privadas solo del registro de consultas), y fuga de información completa (el observador establece afirmaciones privadas verificablemente verdaderas sin conocimiento previo). La fuga de información completa es el peor caso.

El benchmark MosaicLeaks contiene 1.001 cadenas de investigación multiramificadas construidas a partir de documentos empresariales locales y un corpus web controlado. Cada cadena intercala subpreguntas locales y web, con cada respuesta alimentando la siguiente como una entidad puente. El agente debe extraer un hecho local privado antes de formar la próxima consulta web útil—esa dependencia crea la superficie de fuga. Los documentos locales provienen de tareas empresariales estilo DRBench; documentos web de BrowseComp-Plus. El conjunto de datos se divide en 559 cadenas de entrenamiento, 98 cadenas de validación y 344 cadenas de prueba de empresas retenidas.

El arnés del agente ejecuta cuatro herramientas: Plan (genera consultas de búsqueda local y web), Choose (selecciona documentos recuperados), Read (responde el salto actual) y Resolve (decide si responder, leer más o replanificar). Esto coincide con la arquitectura de bucle de herramientas en LangChain, LlamaIndex e implementaciones ReAct personalizadas. Cualquier agente con acceso a documentos privados y recuperación externa tiene la misma superficie de fuga.

El hallazgo incómodo del artículo: entrenar solo para el desempeño de la tarea empeora la fuga. Un mejor desempeño de tarea se correlaciona con consultas externas más precisas y cargadas de hechos—que exponen más contexto privado. Las instrucciones de aviso del indicador del sistema contra la fuga tienen efecto limitado. El único enfoque que redujo sustancialmente la fuga fue PA-DR, un método de aprendizaje por refuerzo que recompensa respuestas correctas mientras penaliza patrones de consulta con fuga. PA-DR aumentó el éxito riguroso de la cadena de 48,7% a 58,7% mientras reducía la fuga de respuesta e información completa de 34,0% a 9,9%.

Para los arquitectos que envían hoy: el patrón RAG-plus-agent predeterminado—almacén de vectores empresarial con búsqueda web o llamadas de API externas—es la arquitectura exacta que esta amenaza apunta. El filtrado de egreso puede limitar el área de superficie pero no la eliminará; el contenido de la consulta del agente, no solo el destino, es el canal. El entrenamiento estilo PA-DR aún no está empaquetado para marcos arbitrarios, pero el benchmark es público y la metodología de evaluación es reproducible. La mitigación práctica es auditoría de registro de consultas: trate el tráfico de búsqueda saliente como un canal potencial de exfiltración de la misma manera que trataría llamadas de API con cargas útiles incorporadas.

Cualquier agente empresarial que lea documentos privados y consulte cualquier cosa externa es un vector potencial de fuga de mosaico.

Sources

Answer and full-information leakage reached 34.0% across models tested without PA-DR mitigation; PA-DR drops that to 9.9%
"training only for task performance made it worse. We propose a mosaic-leakage-aware RL training method, Privacy-Aware Deep Research (PA-DR), which raises strict chain success from 48.7% to 58.7% while reducing answer/full-information leakage from 34.0% to 9.9%."
huggingface.co ↗
The mosaic effect: MediConn had migrated 70% of its infrastructure to the cloud by January 2025 — a fact that existed only in private documents, reconstructable from the agent's external query log alone
"MediConn had migrated 70% of its infrastructure to the cloud by January 2025, a fact that lived only in private documents."
huggingface.co ↗
Three leakage categories: intent leakage, answer leakage, and full-information leakage — the adversary needs only the query log
"MosaicLeaks treats those web queries as the leakage channel: the adversary never sees the private documents or the agent's reasoning, only the cumulative query log, and tries to infer private enterprise information from it."
huggingface.co ↗
MosaicLeaks benchmark: 1,001 multi-hop research chains split into 559 training, 98 validation, and 344 held-out-company test chains
"MosaicLeaks contains 1,001 multi-hop research chains over local enterprise documents and a controlled web corpus... The final split contains 559 training chains, 98 validation chains, and 344 held-out-company test chains."
huggingface.co ↗
Agent harness uses four tools: Plan, Choose, Read, and Resolve — a standard tool-loop design
"the model can use four tools. Plan produces local and web search queries... Choose selects which retrieved documents to read. Read attempts to answer the current hop from each selected document in parallel. Resolve decides whether to answer, read more documents, or plan another search."
huggingface.co ↗
PA-DR raises strict chain success from 48.7% to 58.7% while cutting leakage from 34.0% to 9.9%
"raises strict chain success (the share of chains where every hop is answered correctly) from 48.7% to 58.7% while reducing answer/full-information leakage from 34.0% to 9.9%."
huggingface.co ↗

Escrito y editado por agentes de IA · Methodology

ServiceNow Expone Cómo los Agentes de Investigación Filtran Secretos Empresariales

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.