LACUNA Demonstra que Métodos de Desaprendizado Falham em Apagar PII de Modelos

Uma equipe de McGill, da Universidade de Edimburgo e Mila publicou LACUNA em 2 de julho, o primeiro benchmark de desaprendizado de LLM que fornece localização de parâmetros em nível de ground-truth. O lançamento desafia uma suposição confortável em engenharia de conformidade: passar em avaliações de desaprendizado em nível de saída não garante que PII realmente desapareceu do modelo.

Os métodos de desaprendizado mais avançados seguem um paradigma localize-primeiro, desaprenda-segundo. Eles identificam quais parâmetros codificam um conhecimento e depois aplicam edições baseadas em gradientes a esses pesos. Todo benchmark existente avalia o resultado sondando saídas do modelo: o modelo ainda consegue recitar PII? Consegue responder perguntas sobre o indivíduo esquecido? Essa lente em nível de saída não consegue distinguir entre apagamento genuíno de pesos e supressão inteligente. LACUNA fornece ground-truth construindo o dataset ao contrário. PII para indivíduos sintéticos é injetado em parâmetros predefinidos de modelos baseados em OLMo de 1B e 7B via pré-treinamento continuum mascarado. Como pesquisadores controlam exatamente quais pesos codificam cada pedaço de PII antes do treinamento, eles conseguem medir depois se um método de desaprendizado realmente visou aqueles pesos.

Comparado contra métodos SOTA atuais, os resultados são drásticos: apesar de forte desempenho em nível de saída, todo método testado mostrou alta imprecisão na segmentação de pesos e permaneceu suscetível a ataques de ressurgimento. Quando a localização funciona, até mesmo um método simples de desaprendizado baseado em gradientes alcança apagamento robusto e forte. O gargalo não é o otimizador de desaprendizado—é a etapa de localização.

Isso importa para qualquer equipe reivindicando conformidade GDPR ou CCPA via desaprendizado post-hoc. Um ataque de ressurgimento não requer ferramental exótico: afinar uma derivada em dados adjacentes, aplicar um prompt de jailbreak ou consultá-lo em uma idioma diferente. Se pesos que codificam PII não foram realmente modificados—apenas suprimidos em nível de saída—esses ataques recuperam os dados. LACUNA fornece às equipes de conformidade um harness controlado para validar precisão de localização antes de afirmar apagamento a um regulador, ao invés de depois de uma violação.

O benchmark escala através de tamanhos de modelo OLMo de 1B e 7B. Equipes trabalhando em derivadas bem ajustadas de modelos de peso aberto na faixa de 7B podem executar avaliações em estilo LACUNA contra seus próprios pipelines de desaprendizado sem infraestrutura proprietária. A metodologia de injeção de PII sintético também contorna um problema persistente: datasets reais de PII carregam requisitos legais de manipulação, tornando-os incômodos para conjuntos de avaliação. Os indivíduos sintéticos do LACUNA eliminam esse atrito.

Encontrar exatamente quais cabeças de atenção e pesos MLP armazenam um pedaço específico de PII permanece não resolvido em escala de produção. Os resultados LACUNA mostram que localização imprecisa não é um problema de eficiência menor—é a razão principal pela qual desaprendizado falha sob sondagem adversarial. Até que interpretabilidade mecanicista amadureça o suficiente para identificar circuitos que codificam PII de forma confiável em modelos acima de parâmetros 7B, o gap entre conformidade em nível de saída e apagamento em nível de peso persistirá.

Para arquitetos: parem de tratar avaliações de desaprendizado em nível de saída como suficientes para conformidade regulatória. LACUNA é o testbed que separa modelos que esqueceram de modelos que aprenderam a não responder.

Sources

LACUNA is the first unlearning testbed with ground-truth parameter-level localization, injecting PII into predefined parameters of 1B and 7B OLMo-based models via masked continual pretraining
"LACUNA injects PII of synthetic individuals into predefined parameters of 1B and 7B OLMo-based models via masked continual pretraining, enabling direct evaluation of whether unlearning targets the weights responsible for knowledge storage."
arxiv.org ↗
Despite strong output-level performance, existing SOTA unlearning methods are highly imprecise and susceptible to resurfacing attacks
"despite strong output-level performance, existing methods are highly imprecise and susceptible to resurfacing attacks"
arxiv.org ↗
When localization is successful, even a simple gradient-based unlearning method achieves strong erasure and robustness to resurfacing attacks
"when localization is successful, even a simple gradient-based unlearning method achieves strong erasure and robustness to resurfacing attacks, highlighting the importance of precise unlearning"
arxiv.org ↗
Existing benchmarks evaluate unlearning solely at the output level, leaving open whether unlearning truly erases knowledge from parameters or merely obfuscates it
"existing benchmarks evaluate unlearning solely at the output level, leaving open the question of whether unlearning truly erases knowledge from a model's parameters or merely obfuscates it, a concern reinforced by the success of resurfacing attacks"
arxiv.org ↗
LLM unlearning research is marked by notable fragmentation with no consensus on best evaluations and considerable criticism of existing evaluations
"This volume of LLM unlearning research is marked by a notable fragmentation. Different benchmarks use different evaluations, with no consensus on the best evaluations and considerable criticism of existing evaluations."
arxiv.org ↗
Robust unlearning is crucial for safely deploying LLMs where data privacy, model safety, and regulatory compliance must be ensured
"Robust unlearning is crucial for safely deploying large language models (LLMs) in environments where data privacy, model safety, and regulatory compliance must be ensured."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

LACUNA Demonstra que Métodos de Desaprendizado Falham em Apagar PII de Modelos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.