MIT Extrai Lógica de Atenção em Código Python Intercambiável

Pesquisadores do MIT publicaram um método para converter cabeços de atenção de transformadores em programas Python executáveis que reproduzem os padrões de atenção de cada cabeço. O artigo, de Amiri Hayes, Belinda Li e Jacob Andreas, testa a técnica em GPT-2, TinyLlama-1.1B e Llama-3B.

O pipeline tem três estágios. A equipe calcula matrizes de atenção em exemplos de treinamento para cada cabeço de atenção. Um LLM pré-treinado então gera programas Python que reproduzem os padrões observados usando apenas texto de entrada—nenhum acesso aos pesos é necessário. Programas candidatos são classificados por similaridade Intersection-over-Union em exemplos retidos. O resultado é um conjunto de funções legíveis por humanos, uma por cabeço, que podem ser inspecionadas, versionadas ou trocadas sem tocar nos pesos do modelo.

Menos de 1.000 desses programas cobrem a população completa de cabeços de atenção nos três modelos testados. Os melhores programas de ajuste alcançam 75% de IoU média em TinyStories, medida contra matrizes de atenção retidas que os programas nunca viram durante a síntese. Quando 25% dos cabeços de atenção são substituídos por substitutos simbólicos, a perplexidade média aumenta 16%. Os benchmarks de resposta a perguntas permanecem estáveis após a substituição.

O custo de perplexidade de 16% é a restrição fundamental. Para fluxos de trabalho de depuração ou auditoria—trocar o cabeço simbólico, executar avaliação, restaurar o cabeço neural—é aceitável. Para substituição permanente em produção, o custo depende inteiramente de como a perplexidade se correlaciona com suas métricas específicas da tarefa. O artigo demonstra estabilidade de QA, mas sistemas em produção raramente executam em benchmarks genéricos de QA. A lacuna entre 75% de IoU e 100% representa comportamento de atenção real que o programa perde. Essas lacunas podem importar mais em algumas camadas do que em outras.

A abordagem é modular: cada cabeço obtém seu próprio programa, sintetizado e classificado independentemente. Direcione cabeços específicos que falharam na revisão de interpretabilidade, substitua uma única camada para análise, ou construa um modelo híbrido onde cabeços suspeitos executam simbólico e todo o resto executa neural. Os programas são reclassificáveis—se um novo modo de falha aparecer, re-sintetize contra um conjunto de exemplos direcionado sem retreinar.

O trabalho de grafo de atribuição do Anthropic deliberadamente contorna circuitos QK mantendo padrões de atenção congelados durante experimentos de perturbação. Efeitos mediados por onde os cabeços atendem são, em suas palavras, "invisíveis para nossa abordagem atual." O artigo de Biologia nomeia essa lacuna diretamente, chamando uma interação mediada por QK de "um contraexemplo demonstrando uma fraqueza de nossa análise de circuito presente." Sparse Attention Post-Training (arXiv:2512.05865) regulariza esparsidade de atenção durante pós-treinamento até que a conectividade caia para 0,4% das arestas, rendendo até 100 vezes menos arestas em circuitos específicos da tarefa. Nenhum produz código executável e intercambiável. A síntese de programas faz.

A qualidade do programa degrada com a complexidade do cabeço. Cabeços implementando heurísticas posicionais simples—atender ao token anterior, atender ao limite de sentença atual—sintetizam limpo. Cabeços agregando contexto distribucional em intervalos longos produzem custos de perplexidade mais altos quando substituídos. A figura de perplexidade de 16% mascara variância entre tipos de cabeço e profundidades de modelo.

Se sua equipe faz trabalho de interpretabilidade em nível de cabeço post-hoc—classificando funções de cabeço, auditando artefatos de treinamento, construindo testes de regressão comportamental—este pipeline produz artefatos que você pode fazer diff, testar e enviar junto com pontos de verificação do modelo, não descrições em prosa do que um cabeço "provavelmente faz."

Sources

Fewer than 1,000 programs reproduce attention head behavior across GPT-2, TinyLlama-1.1B, and Llama-3B with average IoU above 75% on TinyStories
"a set of fewer than 1,000 such generated programs can reproduce the attention patterns of heads in GPT-2, TinyLlama-1.1B, and Llama-3B, achieving an average Intersection-over-Union similarity above 75% on TinyStories"
arxiv.org ↗
Replacing 25% of attention heads with programmatic surrogates incurs only a 16% average perplexity increase while maintaining downstream QA performance
"replacing 25% of attention heads with programmatic surrogates across the three models incurs only a 16% average perplexity increase, while maintaining performance on a variety of downstream question answering benchmarks"
arxiv.org ↗
Pipeline: compute attention matrices, prompt LLM to synthesize Python programs, re-rank by held-out IoU
"we first compute its associated attention matrices on a collection of randomly selected training examples. Next, we prompt a pre-trained language model with a summary of these matrices, and instruct it to generate a set of Python programs that can reproduce the associated attention patterns given only text from the input sentence"
arxiv.org ↗
Anthropic attribution graph methodology keeps attention patterns frozen during perturbation experiments — QK-circuit effects are invisible to the analysis
"Attribution graphs are constructed by using the underlying model's attention patterns, so edges in the graph do not account for effects mediated via QK circuits. Similarly, in our perturbation experiments, we keep attention patterns fixed at the values observed during an unperturbed forward pass. This methodological choice means our results don't account for how perturbations might have altered the attention patterns themselves."
transformer-circuits.pub ↗
Anthropic Biology paper calls a QK-mediated interaction a counterexample demonstrating a weakness of present circuit analysis
"This is invisible to our current approach, and might be seen as a kind of 'counterexample' concretely demonstrating a weakness of our present circuit analysis."
transformer-circuits.pub ↗
Sparse Attention Post-Training reduces connectivity to ~0.4% of edges with up to 100x fewer edges in task-specific circuits
"it is possible to retain the original pretraining loss while reducing attention connectivity to approximately 0.4% of its edges... task-specific circuits involve far fewer components (attention heads and MLPs) with up to 100x fewer edges connecting them"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

MIT Extrai Lógica de Atenção em Código Python Intercambiável

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.