Explicações de Modelos de Linguagem Rastreiam Mudanças de Comportamento Automaticamente

Novas pesquisas sobre "acoplamento introspectivo" treinam modelos de linguagem para gerar explicações fiéis do seu próprio comportamento aprendendo de entradas contrafactuais. A descoberta principal: modelos treinados em explicações fixas de checkpoints anteriores (ou até mesmo de modelos diferentes) ainda conseguem rastrear mudanças comportamentais reais. Para equipes implantando modelos em domínios de alto risco, essa é uma abordagem prática para construir rastreamentos de decisão interpretáveis sem anotação manual cara.

Pesquisadores do MIT desenvolveram um método para manter explicações de modelos de linguagem alinhadas com o comportamento atual sem atualizar rótulos. A técnica, chamada acoplamento introspectivo, afina um modelo em um conjunto fixo de explicações contrafactuais. Conforme o comportamento do modelo se desvio durante o treinamento, suas explicações rastreiam esse desvio em vez de reverter para o checkpoint original. Zifan Carl Guo, Laura Ruis, Jacob Andreas e Belinda Z. Li postaram o artigo em 30 de junho de 2026.

O mecanismo funciona assim: comece com um modelo base M0, colete pares de comportamento contrafactual (entrada original x e uma versão modificada com o recurso C removido) e gere rótulos de explicação E(M0). Afine M0 nesses rótulos para produzir M_reg. Durante o treinamento, M_reg diverge de M0 e suas explicações rastreiam o comportamento divergente, não o original. Os autores chamam isso de propriedade "Self > Orig"—explicações permanecem fiéis ao comportamento atual em vez do alvo de treinamento original.

O efeito se mantém em três domínios: benchmarks de sicofancia Hint-MMLU e AITA, e um conjunto de dados de recusa combinando amostras FalseReject e WildGuard. Também resiste a ruído de rótulos e se transfere entre famílias de modelos. Praticantes podem gerar rótulos de um modelo comportamentalmente similar em uma família diferente e ainda induzir acoplamento no seu alvo. Isso importa para equipes incapazes ou relutantes em executar ferramentas de interpretabilidade diretamente em checkpoints proprietários.

Um requisito: explicações devem permanecer suficientemente correlacionadas com comportamentos atuais ao longo do treinamento. Remova o termo de regularização comportamental e o efeito desaparece. Você não pode aplicar rótulos antigos a execuções de ajuste fino arbitrárias e esperar introspecção fiel. O acoplamento depende do desvio comportamental permanecer pequeno o suficiente para que rótulos originais permaneçam preditivos.

O retorno para pós-treinamento concorrente é substancial. Quando o treinamento de explicação é executado junto com redução de sicofancia ou ajuste de recusa, as explicações rastreiam esses deslocamentos de comportamento sem novos rótulos. Isso elimina o gargalo de anotação que torna a maioria das abordagens de interpretabilidade caras de manter após passes de RLHF ou DPO. Equipes construindo trilhas de auditoria para implantações reguladas—saúde, finanças, legal—podem congelar um conjunto de dados de explicação e rastrear mudanças de comportamento através de atualizações de modelo.

Trabalho anterior de Li et al. (arXiv novembro de 2025) estabeleceu o caso de eficiência: autoexplicação atinge resultados com 0,8% dos dados de treinamento comparado a uma linha de base sparse autoencoder de vizinhos mais próximos, um ganho aproximadamente de 100x. Essa lacuna é o que torna a abordagem viável em escala de produção.

A limitação: a condição de correlação é suave, não absoluta. O artigo não oferece métrica antecipada para prever se uma execução de ajuste fino preservará o acoplamento. Equipes planejando grandes deslocamentos comportamentais—adaptação de domínio, adições de capacidade principais—precisam de verificações empíricas para confirmar o acoplamento antes de confiar nos outputs de explicação. O código está disponível em https://github.com/TransluceAI/introspective-interp.

Se você precisa de rastreamentos de decisão interpretáveis sem custos de anotação, ajuste fino em um conjunto de dados contrafactual único e deixe o acoplamento introspectivo rastrear mudanças—mas verifique se a condição de acoplamento se mantém quando os objetivos comportamentais mudam substancialmente.

Sources

Introspective coupling: models trained on fixed counterfactual explanations derived from earlier checkpoints or different model families produce explanations more faithful to their own current behaviors than to those of their training targets
"LMs trained on fixed counterfactual explanations derived from earlier checkpoints of themselves, or even from behaviorally similar models in different families, frequently produce explanations more faithful to their own current behaviors than to those of their training targets."
arxiv.org ↗
Introspective coupling demonstrated on sycophancy (Hint-MMLU, AITA) and refusal (FalseReject, WildGuard) tasks, robust to label noise
"Self > Orig is robust across three tasks (Section 3): two sycophancy datasets (Hint-MMLU and AITA), and a refusal dataset comprising a mix of FalseReject and WildGuard samples."
arxiv.org ↗
Coupling requires behavioral regularization; the effect disappears without it
"This effect disappears without regularization."
arxiv.org ↗
When explanation training is concurrent with other post-training objectives, explanations track behavior shifts without requiring updated supervision
"when explanation training is provided concurrently with other post-training objectives, explanations track those shifts without requiring updated supervision."
arxiv.org ↗
Self-explanation is approximately 100x more sample-efficient than a nearest-neighbors SAE baseline, achieving comparable results with only 0.8% of training data
"Self-explaining is approximately a hundred times more sample-efficient than a nearest-neighbors baseline, achieving comparable results with only 0.8% of the training data."
arxiv.org ↗
Code for the self-explanation training approach available at https://github.com/TransluceAI/introspective-interp
"Code available at https://github.com/TransluceAI/introspective-interp."
arxiv.org ↗
Self-explanation is significantly more data-efficient than other explanation techniques including training other models and nearest neighbors SAE baselines
"self-explanation is significantly more data-efficient than other explanation techniques, including training other models and a nearest neighbors SAE baseline."
transluce.org ↗

Escrito e editado por agentes de IA · Methodology

Explicações de Modelos de Linguagem Rastreiam Mudanças de Comportamento Automaticamente

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.