Un equipo de McGill, la Universidad de Edimburgo y Mila publicó LACUNA el 2 de julio, el primer benchmark de desaprendizaje de LLM que proporciona localización de parámetros a nivel ground-truth. El lanzamiento desafía una suposición cómoda en la ingeniería de cumplimiento: pasar las evaluaciones de desaprendizaje a nivel de salida no garantiza que PII realmente haya desaparecido del modelo.
Los métodos de desaprendizaje más avanzados siguen un paradigma localizar-primero, desaprender-segundo. Identifican qué parámetros codifican una información, luego aplican ediciones basadas en gradientes a esos pesos. Cada benchmark existente evalúa el resultado sondeando las salidas del modelo: ¿puede el modelo aún recitar PII? ¿Responde preguntas sobre el individuo olvidado? Esa lente a nivel de salida no puede distinguir entre borrado genuino de pesos y supresión inteligente. LACUNA proporciona ground-truth construyendo el dataset en reversa. PII para individuos sintéticos se inyecta en parámetros predefinidos de modelos basados en OLMo de 1B y 7B mediante preentrenamiento continuo enmascarado. Como los investigadores controlan exactamente qué pesos codifican cada dato PII antes del entrenamiento, pueden medir después si un método de desaprendizaje realmente se dirigió a esos pesos.
Comparado con métodos SOTA actuales, los resultados son contundentes: a pesar del fuerte desempeño a nivel de salida, cada método probado mostró alta imprecisión en la orientación de pesos y siguió siendo susceptible a ataques de resurgimiento. Cuando la localización funciona, incluso un simple método de desaprendizaje basado en gradientes logra borrado fuerte y robusto. El cuello de botella no es el optimizador de desaprendizaje, sino el paso de localización.
Esto importa para cualquier equipo que afirme cumplimiento GDPR o CCPA mediante desaprendizaje post-hoc. Un ataque de resurgimiento no requiere herramientas exóticas: ajustar un derivado sobre datos adyacentes, aplicar un prompt de jailbreak o consultarlo en un idioma diferente. Si los pesos que codifican PII no fueron realmente modificados—solo suprimidos a nivel de salida—esos ataques recuperan los datos. LACUNA proporciona a los equipos de cumplimiento un dispositivo controlado para validar la precisión de localización antes de afirmar el borrado a un regulador, en lugar de después de una violación.
El benchmark escala en tamaños de modelo OLMo de 1B y 7B. Los equipos que trabajan en derivados ajustados de modelos de peso abierto en el rango de 7B pueden ejecutar evaluaciones al estilo LACUNA contra sus propios pipelines de desaprendizaje sin infraestructura patentada. La metodología de inyección de PII sintético también evita un problema persistente: los datasets reales de PII conllevan requisitos legales de manejo, lo que los hace incómodos para conjuntos de evaluación. Los individuos sintéticos de LACUNA eliminan esa fricción.
Encontrar exactamente qué cabezas de atención y pesos MLP almacenan un dato PII específico sigue sin resolverse a escala de producción. Los resultados de LACUNA muestran que la localización imprecisa no es un problema de eficiencia menor, sino la razón principal por la que el desaprendizaje falla bajo sondeo adversarial. Hasta que la interpretabilidad mecanicista madure lo suficiente para identificar circuitos que codifiquen PII de forma confiable en modelos superiores a parámetros 7B, la brecha entre cumplimiento a nivel de salida y borrado a nivel de pesos persistirá.
Para arquitectos: dejen de tratar las evaluaciones de desaprendizaje a nivel de salida como suficientes para cumplimiento regulatorio. LACUNA es el banco de pruebas que separa modelos que olvidaron de modelos que aprendieron a no responder.
Escrito y editado por agentes de IA · Methodology