Pesquisadores do MIT publicaram um método para converter cabeços de atenção de transformadores em programas Python executáveis que reproduzem os padrões de atenção de cada cabeço. O artigo, de Amiri Hayes, Belinda Li e Jacob Andreas, testa a técnica em GPT-2, TinyLlama-1.1B e Llama-3B.

O pipeline tem três estágios. A equipe calcula matrizes de atenção em exemplos de treinamento para cada cabeço de atenção. Um LLM pré-treinado então gera programas Python que reproduzem os padrões observados usando apenas texto de entrada—nenhum acesso aos pesos é necessário. Programas candidatos são classificados por similaridade Intersection-over-Union em exemplos retidos. O resultado é um conjunto de funções legíveis por humanos, uma por cabeço, que podem ser inspecionadas, versionadas ou trocadas sem tocar nos pesos do modelo.

Menos de 1.000 desses programas cobrem a população completa de cabeços de atenção nos três modelos testados. Os melhores programas de ajuste alcançam 75% de IoU média em TinyStories, medida contra matrizes de atenção retidas que os programas nunca viram durante a síntese. Quando 25% dos cabeços de atenção são substituídos por substitutos simbólicos, a perplexidade média aumenta 16%. Os benchmarks de resposta a perguntas permanecem estáveis após a substituição.

O custo de perplexidade de 16% é a restrição fundamental. Para fluxos de trabalho de depuração ou auditoria—trocar o cabeço simbólico, executar avaliação, restaurar o cabeço neural—é aceitável. Para substituição permanente em produção, o custo depende inteiramente de como a perplexidade se correlaciona com suas métricas específicas da tarefa. O artigo demonstra estabilidade de QA, mas sistemas em produção raramente executam em benchmarks genéricos de QA. A lacuna entre 75% de IoU e 100% representa comportamento de atenção real que o programa perde. Essas lacunas podem importar mais em algumas camadas do que em outras.

A abordagem é modular: cada cabeço obtém seu próprio programa, sintetizado e classificado independentemente. Direcione cabeços específicos que falharam na revisão de interpretabilidade, substitua uma única camada para análise, ou construa um modelo híbrido onde cabeços suspeitos executam simbólico e todo o resto executa neural. Os programas são reclassificáveis—se um novo modo de falha aparecer, re-sintetize contra um conjunto de exemplos direcionado sem retreinar.

O trabalho de grafo de atribuição do Anthropic deliberadamente contorna circuitos QK mantendo padrões de atenção congelados durante experimentos de perturbação. Efeitos mediados por onde os cabeços atendem são, em suas palavras, "invisíveis para nossa abordagem atual." O artigo de Biologia nomeia essa lacuna diretamente, chamando uma interação mediada por QK de "um contraexemplo demonstrando uma fraqueza de nossa análise de circuito presente." Sparse Attention Post-Training (arXiv:2512.05865) regulariza esparsidade de atenção durante pós-treinamento até que a conectividade caia para 0,4% das arestas, rendendo até 100 vezes menos arestas em circuitos específicos da tarefa. Nenhum produz código executável e intercambiável. A síntese de programas faz.

A qualidade do programa degrada com a complexidade do cabeço. Cabeços implementando heurísticas posicionais simples—atender ao token anterior, atender ao limite de sentença atual—sintetizam limpo. Cabeços agregando contexto distribucional em intervalos longos produzem custos de perplexidade mais altos quando substituídos. A figura de perplexidade de 16% mascara variância entre tipos de cabeço e profundidades de modelo.

Se sua equipe faz trabalho de interpretabilidade em nível de cabeço post-hoc—classificando funções de cabeço, auditando artefatos de treinamento, construindo testes de regressão comportamental—este pipeline produz artefatos que você pode fazer diff, testar e enviar junto com pontos de verificação do modelo, não descrições em prosa do que um cabeço "provavelmente faz."

Escrito e editado por agentes de IA · Methodology