LACUNA Demuestra que los Métodos de Desaprendizaje no Logran Borrar PII de los Modelos

El nuevo benchmark (LACUNA) evalúa si el desaprendizaje de LLM realmente borra datos sensibles de los parámetros del modelo, no solo de las salidas enmascaradas. Herramienta de cumplimiento esencial para arquitectos verificar la eliminación de PII e implementación segura de modelos en entornos regulados.

Un equipo de McGill, la Universidad de Edimburgo y Mila publicó LACUNA el 2 de julio, el primer benchmark de desaprendizaje de LLM que proporciona localización de parámetros a nivel ground-truth. El lanzamiento desafía una suposición cómoda en la ingeniería de cumplimiento: pasar las evaluaciones de desaprendizaje a nivel de salida no garantiza que PII realmente haya desaparecido del modelo.

Los métodos de desaprendizaje más avanzados siguen un paradigma localizar-primero, desaprender-segundo. Identifican qué parámetros codifican una información, luego aplican ediciones basadas en gradientes a esos pesos. Cada benchmark existente evalúa el resultado sondeando las salidas del modelo: ¿puede el modelo aún recitar PII? ¿Responde preguntas sobre el individuo olvidado? Esa lente a nivel de salida no puede distinguir entre borrado genuino de pesos y supresión inteligente. LACUNA proporciona ground-truth construyendo el dataset en reversa. PII para individuos sintéticos se inyecta en parámetros predefinidos de modelos basados en OLMo de 1B y 7B mediante preentrenamiento continuo enmascarado. Como los investigadores controlan exactamente qué pesos codifican cada dato PII antes del entrenamiento, pueden medir después si un método de desaprendizaje realmente se dirigió a esos pesos.

Comparado con métodos SOTA actuales, los resultados son contundentes: a pesar del fuerte desempeño a nivel de salida, cada método probado mostró alta imprecisión en la orientación de pesos y siguió siendo susceptible a ataques de resurgimiento. Cuando la localización funciona, incluso un simple método de desaprendizaje basado en gradientes logra borrado fuerte y robusto. El cuello de botella no es el optimizador de desaprendizaje, sino el paso de localización.

Esto importa para cualquier equipo que afirme cumplimiento GDPR o CCPA mediante desaprendizaje post-hoc. Un ataque de resurgimiento no requiere herramientas exóticas: ajustar un derivado sobre datos adyacentes, aplicar un prompt de jailbreak o consultarlo en un idioma diferente. Si los pesos que codifican PII no fueron realmente modificados—solo suprimidos a nivel de salida—esos ataques recuperan los datos. LACUNA proporciona a los equipos de cumplimiento un dispositivo controlado para validar la precisión de localización antes de afirmar el borrado a un regulador, en lugar de después de una violación.

El benchmark escala en tamaños de modelo OLMo de 1B y 7B. Los equipos que trabajan en derivados ajustados de modelos de peso abierto en el rango de 7B pueden ejecutar evaluaciones al estilo LACUNA contra sus propios pipelines de desaprendizaje sin infraestructura patentada. La metodología de inyección de PII sintético también evita un problema persistente: los datasets reales de PII conllevan requisitos legales de manejo, lo que los hace incómodos para conjuntos de evaluación. Los individuos sintéticos de LACUNA eliminan esa fricción.

Encontrar exactamente qué cabezas de atención y pesos MLP almacenan un dato PII específico sigue sin resolverse a escala de producción. Los resultados de LACUNA muestran que la localización imprecisa no es un problema de eficiencia menor, sino la razón principal por la que el desaprendizaje falla bajo sondeo adversarial. Hasta que la interpretabilidad mecanicista madure lo suficiente para identificar circuitos que codifiquen PII de forma confiable en modelos superiores a parámetros 7B, la brecha entre cumplimiento a nivel de salida y borrado a nivel de pesos persistirá.

Para arquitectos: dejen de tratar las evaluaciones de desaprendizaje a nivel de salida como suficientes para cumplimiento regulatorio. LACUNA es el banco de pruebas que separa modelos que olvidaron de modelos que aprendieron a no responder.

Sources

LACUNA is the first unlearning testbed with ground-truth parameter-level localization, injecting PII into predefined parameters of 1B and 7B OLMo-based models via masked continual pretraining
"LACUNA injects PII of synthetic individuals into predefined parameters of 1B and 7B OLMo-based models via masked continual pretraining, enabling direct evaluation of whether unlearning targets the weights responsible for knowledge storage."
arxiv.org ↗
Despite strong output-level performance, existing SOTA unlearning methods are highly imprecise and susceptible to resurfacing attacks
"despite strong output-level performance, existing methods are highly imprecise and susceptible to resurfacing attacks"
arxiv.org ↗
When localization is successful, even a simple gradient-based unlearning method achieves strong erasure and robustness to resurfacing attacks
"when localization is successful, even a simple gradient-based unlearning method achieves strong erasure and robustness to resurfacing attacks, highlighting the importance of precise unlearning"
arxiv.org ↗
Existing benchmarks evaluate unlearning solely at the output level, leaving open whether unlearning truly erases knowledge from parameters or merely obfuscates it
"existing benchmarks evaluate unlearning solely at the output level, leaving open the question of whether unlearning truly erases knowledge from a model's parameters or merely obfuscates it, a concern reinforced by the success of resurfacing attacks"
arxiv.org ↗
LLM unlearning research is marked by notable fragmentation with no consensus on best evaluations and considerable criticism of existing evaluations
"This volume of LLM unlearning research is marked by a notable fragmentation. Different benchmarks use different evaluations, with no consensus on the best evaluations and considerable criticism of existing evaluations."
arxiv.org ↗
Robust unlearning is crucial for safely deploying LLMs where data privacy, model safety, and regulatory compliance must be ensured
"Robust unlearning is crucial for safely deploying large language models (LLMs) in environments where data privacy, model safety, and regulatory compliance must be ensured."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

LACUNA Demuestra que los Métodos de Desaprendizaje no Logran Borrar PII de los Modelos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.