MosaicLeaks: Agentes de investigación filtran datos privados a través de patrones de consultas; el entrenamiento PA-DR reduce filtraciones al 9,9%
Investigadores de ServiceNow y HuggingFace lanzaron MosaicLeaks, un benchmark que revela que los agentes de investigación profunda filtran frecuentemente información privada de la empresa a través de registros de consultas externas. Un agente de una empresa de salud investigando una migración a la nube filtó el estado de infraestructura del objetivo a través de búsquedas web aparentemente benignas—individualmente inofensivas, colectivamente reveladoras. El 'efecto mosaico' surge de la secuencia de consulta: los adversarios que observan el tráfico saliente pueden rearmar fragmentos para inferir hechos privados sin ver documentos o razonamiento. Los investigadores midieron tres tipos de filtración: intención (inferir objetivos de investigación), respuesta (responder preguntas privadas a partir de consultas) e información completa (afirmar reclamaciones privadas verificadas solo a partir de patrones de consulta).
MosaicLeaks contiene 1.001 cadenas de investigación multi-hop sobre documentos empresariales y corpus web públicos, probando modelos incluyendo Claude. Los modelos base filtraron información privada a tasas alarmantes: la filtración de respuesta llegó al 34,0% en promedio. Un nuevo enfoque de aprendizaje por refuerzo, Investigación Profunda Consciente de Privacidad (PA-DR), redujo la filtración del 34,0% al 9,9% mientras mantuviera el desempeño de tareas (el éxito de cadena estricta aumentó del 48,7% al 58,7%). El método entrena agentes para evitar patrones de consulta que expongan puentes privados.
Para equipos de infraestructura que implementan agentes de investigación en datos propios, este hallazgo valida el modelo de amenaza: los agentes que componen consultas externas pueden exponer inadvertidamente secretos empresariales a observadores a nivel de red. La solución requiere entrenamiento de RL agentico, no solo guardrails. Las organizaciones deben auditar flujos de trabajo de razonamiento multi-hop y considerar la limitación de velocidad o la agrupación de llamadas de herramientas externas. Conforme los agentes avanzan de tareas de consulta única a planificación multi-paso, la privacidad de secuencia de consulta se convierte en una preocupación de producción.
Fuentes
- Primary source
- MosaicLeaks: Can your research agent keep a secret?
“agents frequently leaked private information, and training only for task performance made it worse”