MIT Extrae Lógica de Atención en Código Python Intercambiable

Investigadores del MIT han publicado un método para convertir cabezales de atención de transformadores en programas Python ejecutables que reproducen los patrones de atención de cada cabezal. El documento, de Amiri Hayes, Belinda Li y Jacob Andreas, prueba la técnica en GPT-2, TinyLlama-1.1B y Llama-3B.

El pipeline tiene tres etapas. El equipo calcula matrices de atención en ejemplos de entrenamiento para cada cabezal de atención. Un LLM pre-entrenado genera entonces programas Python que reproducen los patrones observados usando solo texto de entrada—no se requiere acceso a los pesos. Los programas candidatos se clasifican por similitud de Intersección sobre Unión en ejemplos retenidos. El resultado es un conjunto de funciones legibles para humanos, una por cabezal, que pueden inspeccionarse, versionarse o intercambiarse sin tocar los pesos del modelo.

Menos de 1.000 de estos programas cubren la población completa de cabezales de atención en los tres modelos probados. Los programas de mejor ajuste logran un 75% de IoU promedio en TinyStories, medido contra matrices de atención retenidas que los programas nunca vieron durante la síntesis. Cuando el 25% de los cabezales de atención se reemplazan por sustitutos simbólicos, la perplejidad promedio aumenta un 16%. Los benchmarks de respuesta a preguntas permanecen estables después de la sustitución.

El costo de perplejidad del 16% es la restricción clave. Para flujos de trabajo de depuración o auditoría—intercambie el cabezal simbólico, ejecute evaluación, restaure el cabezal neural—es aceptable. Para sustitución permanente en producción, el costo depende enteramente de cómo la perplejidad se correlaciona con sus métricas específicas de la tarea. El documento demuestra estabilidad de QA, pero los sistemas en producción rara vez se ejecutan en benchmarks genéricos de QA. La brecha entre 75% de IoU y 100% representa comportamiento real de atención que el programa no captura. Estas brechas pueden importar más en algunas capas que en otras.

El enfoque es modular: cada cabezal obtiene su propio programa, sintetizado y clasificado independientemente. Apunte a cabezales específicos que fallaron en revisión de interpretabilidad, sustituya una sola capa para análisis, o construya un modelo híbrido donde cabezales sospechosos ejecuten simbólico y todo lo demás ejecute neural. Los programas son re-clasificables—si aparece un nuevo modo de fallo, re-sintetice contra un conjunto de ejemplos dirigido sin reentrenamiento.

El trabajo de grafo de atribución de Anthropic deliberadamente elude circuitos QK manteniendo patrones de atención congelados durante experimentos de perturbación. Los efectos mediados por dónde los cabezales atienden son, en sus palabras, "invisibles para nuestro enfoque actual." El documento de Biología nombra esta brecha directamente, llamando a una interacción mediada por QK "un contraejemplo que demuestra una debilidad de nuestro análisis de circuitos actual." Sparse Attention Post-Training (arXiv:2512.05865) regulariza la escasez de atención durante el post-entrenamiento hasta que la conectividad cae al 0,4% de bordes, produciendo hasta 100 veces menos bordes en circuitos específicos de la tarea. Ninguno produce código ejecutable e intercambiable. La síntesis de programas sí.

La calidad del programa se degrada con la complejidad del cabezal. Los cabezales que implementan heurísticas posicionales simples—atender al token anterior, atender al límite de oración actual—sintetizan limpiamente. Los cabezales que agregan contexto distribucional en rangos largos producen costos de perplejidad más altos cuando se sustituyen. La cifra de perplejidad del 16% enmascara varianza entre tipos de cabezal y profundidades de modelo.

Si su equipo realiza trabajo de interpretabilidad a nivel de cabezal post-hoc—clasificando roles de cabezal, auditando artefactos de entrenamiento, construyendo pruebas de regresión de comportamiento—este pipeline produce artefactos que puede hacer diff, probar y enviar junto con puntos de control del modelo, no descripciones en prosa de lo que un cabezal "probablemente hace."

Sources

Fewer than 1,000 programs reproduce attention head behavior across GPT-2, TinyLlama-1.1B, and Llama-3B with average IoU above 75% on TinyStories
"a set of fewer than 1,000 such generated programs can reproduce the attention patterns of heads in GPT-2, TinyLlama-1.1B, and Llama-3B, achieving an average Intersection-over-Union similarity above 75% on TinyStories"
arxiv.org ↗
Replacing 25% of attention heads with programmatic surrogates incurs only a 16% average perplexity increase while maintaining downstream QA performance
"replacing 25% of attention heads with programmatic surrogates across the three models incurs only a 16% average perplexity increase, while maintaining performance on a variety of downstream question answering benchmarks"
arxiv.org ↗
Pipeline: compute attention matrices, prompt LLM to synthesize Python programs, re-rank by held-out IoU
"we first compute its associated attention matrices on a collection of randomly selected training examples. Next, we prompt a pre-trained language model with a summary of these matrices, and instruct it to generate a set of Python programs that can reproduce the associated attention patterns given only text from the input sentence"
arxiv.org ↗
Anthropic attribution graph methodology keeps attention patterns frozen during perturbation experiments — QK-circuit effects are invisible to the analysis
"Attribution graphs are constructed by using the underlying model's attention patterns, so edges in the graph do not account for effects mediated via QK circuits. Similarly, in our perturbation experiments, we keep attention patterns fixed at the values observed during an unperturbed forward pass. This methodological choice means our results don't account for how perturbations might have altered the attention patterns themselves."
transformer-circuits.pub ↗
Anthropic Biology paper calls a QK-mediated interaction a counterexample demonstrating a weakness of present circuit analysis
"This is invisible to our current approach, and might be seen as a kind of 'counterexample' concretely demonstrating a weakness of our present circuit analysis."
transformer-circuits.pub ↗
Sparse Attention Post-Training reduces connectivity to ~0.4% of edges with up to 100x fewer edges in task-specific circuits
"it is possible to retain the original pretraining loss while reducing attention connectivity to approximately 0.4% of its edges... task-specific circuits involve far fewer components (attention heads and MLPs) with up to 100x fewer edges connecting them"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

MIT Extrae Lógica de Atención en Código Python Intercambiable

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.