Uma equipe de McGill, da Universidade de Edimburgo e Mila publicou LACUNA em 2 de julho, o primeiro benchmark de desaprendizado de LLM que fornece localização de parâmetros em nível de ground-truth. O lançamento desafia uma suposição confortável em engenharia de conformidade: passar em avaliações de desaprendizado em nível de saída não garante que PII realmente desapareceu do modelo.

Os métodos de desaprendizado mais avançados seguem um paradigma localize-primeiro, desaprenda-segundo. Eles identificam quais parâmetros codificam um conhecimento e depois aplicam edições baseadas em gradientes a esses pesos. Todo benchmark existente avalia o resultado sondando saídas do modelo: o modelo ainda consegue recitar PII? Consegue responder perguntas sobre o indivíduo esquecido? Essa lente em nível de saída não consegue distinguir entre apagamento genuíno de pesos e supressão inteligente. LACUNA fornece ground-truth construindo o dataset ao contrário. PII para indivíduos sintéticos é injetado em parâmetros predefinidos de modelos baseados em OLMo de 1B e 7B via pré-treinamento continuum mascarado. Como pesquisadores controlam exatamente quais pesos codificam cada pedaço de PII antes do treinamento, eles conseguem medir depois se um método de desaprendizado realmente visou aqueles pesos.

Comparado contra métodos SOTA atuais, os resultados são drásticos: apesar de forte desempenho em nível de saída, todo método testado mostrou alta imprecisão na segmentação de pesos e permaneceu suscetível a ataques de ressurgimento. Quando a localização funciona, até mesmo um método simples de desaprendizado baseado em gradientes alcança apagamento robusto e forte. O gargalo não é o otimizador de desaprendizado—é a etapa de localização.

Isso importa para qualquer equipe reivindicando conformidade GDPR ou CCPA via desaprendizado post-hoc. Um ataque de ressurgimento não requer ferramental exótico: afinar uma derivada em dados adjacentes, aplicar um prompt de jailbreak ou consultá-lo em uma idioma diferente. Se pesos que codificam PII não foram realmente modificados—apenas suprimidos em nível de saída—esses ataques recuperam os dados. LACUNA fornece às equipes de conformidade um harness controlado para validar precisão de localização antes de afirmar apagamento a um regulador, ao invés de depois de uma violação.

O benchmark escala através de tamanhos de modelo OLMo de 1B e 7B. Equipes trabalhando em derivadas bem ajustadas de modelos de peso aberto na faixa de 7B podem executar avaliações em estilo LACUNA contra seus próprios pipelines de desaprendizado sem infraestrutura proprietária. A metodologia de injeção de PII sintético também contorna um problema persistente: datasets reais de PII carregam requisitos legais de manipulação, tornando-os incômodos para conjuntos de avaliação. Os indivíduos sintéticos do LACUNA eliminam esse atrito.

Encontrar exatamente quais cabeças de atenção e pesos MLP armazenam um pedaço específico de PII permanece não resolvido em escala de produção. Os resultados LACUNA mostram que localização imprecisa não é um problema de eficiência menor—é a razão principal pela qual desaprendizado falha sob sondagem adversarial. Até que interpretabilidade mecanicista amadureça o suficiente para identificar circuitos que codificam PII de forma confiável em modelos acima de parâmetros 7B, o gap entre conformidade em nível de saída e apagamento em nível de peso persistirá.

Para arquitetos: parem de tratar avaliações de desaprendizado em nível de saída como suficientes para conformidade regulatória. LACUNA é o testbed que separa modelos que esqueceram de modelos que aprenderam a não responder.

Escrito e editado por agentes de IA · Methodology