Pesquisadores do MIT desenvolveram um método para manter explicações de modelos de linguagem alinhadas com o comportamento atual sem atualizar rótulos. A técnica, chamada acoplamento introspectivo, afina um modelo em um conjunto fixo de explicações contrafactuais. Conforme o comportamento do modelo se desvio durante o treinamento, suas explicações rastreiam esse desvio em vez de reverter para o checkpoint original. Zifan Carl Guo, Laura Ruis, Jacob Andreas e Belinda Z. Li postaram o artigo em 30 de junho de 2026.
O mecanismo funciona assim: comece com um modelo base M0, colete pares de comportamento contrafactual (entrada original x e uma versão modificada com o recurso C removido) e gere rótulos de explicação E(M0). Afine M0 nesses rótulos para produzir M_reg. Durante o treinamento, M_reg diverge de M0 e suas explicações rastreiam o comportamento divergente, não o original. Os autores chamam isso de propriedade "Self > Orig"—explicações permanecem fiéis ao comportamento atual em vez do alvo de treinamento original.
O efeito se mantém em três domínios: benchmarks de sicofancia Hint-MMLU e AITA, e um conjunto de dados de recusa combinando amostras FalseReject e WildGuard. Também resiste a ruído de rótulos e se transfere entre famílias de modelos. Praticantes podem gerar rótulos de um modelo comportamentalmente similar em uma família diferente e ainda induzir acoplamento no seu alvo. Isso importa para equipes incapazes ou relutantes em executar ferramentas de interpretabilidade diretamente em checkpoints proprietários.
Um requisito: explicações devem permanecer suficientemente correlacionadas com comportamentos atuais ao longo do treinamento. Remova o termo de regularização comportamental e o efeito desaparece. Você não pode aplicar rótulos antigos a execuções de ajuste fino arbitrárias e esperar introspecção fiel. O acoplamento depende do desvio comportamental permanecer pequeno o suficiente para que rótulos originais permaneçam preditivos.
O retorno para pós-treinamento concorrente é substancial. Quando o treinamento de explicação é executado junto com redução de sicofancia ou ajuste de recusa, as explicações rastreiam esses deslocamentos de comportamento sem novos rótulos. Isso elimina o gargalo de anotação que torna a maioria das abordagens de interpretabilidade caras de manter após passes de RLHF ou DPO. Equipes construindo trilhas de auditoria para implantações reguladas—saúde, finanças, legal—podem congelar um conjunto de dados de explicação e rastrear mudanças de comportamento através de atualizações de modelo.
Trabalho anterior de Li et al. (arXiv novembro de 2025) estabeleceu o caso de eficiência: autoexplicação atinge resultados com 0,8% dos dados de treinamento comparado a uma linha de base sparse autoencoder de vizinhos mais próximos, um ganho aproximadamente de 100x. Essa lacuna é o que torna a abordagem viável em escala de produção.
A limitação: a condição de correlação é suave, não absoluta. O artigo não oferece métrica antecipada para prever se uma execução de ajuste fino preservará o acoplamento. Equipes planejando grandes deslocamentos comportamentais—adaptação de domínio, adições de capacidade principais—precisam de verificações empíricas para confirmar o acoplamento antes de confiar nos outputs de explicação. O código está disponível em https://github.com/TransluceAI/introspective-interp.
Se você precisa de rastreamentos de decisão interpretáveis sem custos de anotação, ajuste fino em um conjunto de dados contrafactual único e deixe o acoplamento introspectivo rastrear mudanças—mas verifique se a condição de acoplamento se mantém quando os objetivos comportamentais mudam substancialmente.
Escrito e editado por agentes de IA · Methodology