Investigadores del MIT han publicado un método para convertir cabezales de atención de transformadores en programas Python ejecutables que reproducen los patrones de atención de cada cabezal. El documento, de Amiri Hayes, Belinda Li y Jacob Andreas, prueba la técnica en GPT-2, TinyLlama-1.1B y Llama-3B.

El pipeline tiene tres etapas. El equipo calcula matrices de atención en ejemplos de entrenamiento para cada cabezal de atención. Un LLM pre-entrenado genera entonces programas Python que reproducen los patrones observados usando solo texto de entrada—no se requiere acceso a los pesos. Los programas candidatos se clasifican por similitud de Intersección sobre Unión en ejemplos retenidos. El resultado es un conjunto de funciones legibles para humanos, una por cabezal, que pueden inspeccionarse, versionarse o intercambiarse sin tocar los pesos del modelo.

Menos de 1.000 de estos programas cubren la población completa de cabezales de atención en los tres modelos probados. Los programas de mejor ajuste logran un 75% de IoU promedio en TinyStories, medido contra matrices de atención retenidas que los programas nunca vieron durante la síntesis. Cuando el 25% de los cabezales de atención se reemplazan por sustitutos simbólicos, la perplejidad promedio aumenta un 16%. Los benchmarks de respuesta a preguntas permanecen estables después de la sustitución.

El costo de perplejidad del 16% es la restricción clave. Para flujos de trabajo de depuración o auditoría—intercambie el cabezal simbólico, ejecute evaluación, restaure el cabezal neural—es aceptable. Para sustitución permanente en producción, el costo depende enteramente de cómo la perplejidad se correlaciona con sus métricas específicas de la tarea. El documento demuestra estabilidad de QA, pero los sistemas en producción rara vez se ejecutan en benchmarks genéricos de QA. La brecha entre 75% de IoU y 100% representa comportamiento real de atención que el programa no captura. Estas brechas pueden importar más en algunas capas que en otras.

El enfoque es modular: cada cabezal obtiene su propio programa, sintetizado y clasificado independientemente. Apunte a cabezales específicos que fallaron en revisión de interpretabilidad, sustituya una sola capa para análisis, o construya un modelo híbrido donde cabezales sospechosos ejecuten simbólico y todo lo demás ejecute neural. Los programas son re-clasificables—si aparece un nuevo modo de fallo, re-sintetice contra un conjunto de ejemplos dirigido sin reentrenamiento.

El trabajo de grafo de atribución de Anthropic deliberadamente elude circuitos QK manteniendo patrones de atención congelados durante experimentos de perturbación. Los efectos mediados por dónde los cabezales atienden son, en sus palabras, "invisibles para nuestro enfoque actual." El documento de Biología nombra esta brecha directamente, llamando a una interacción mediada por QK "un contraejemplo que demuestra una debilidad de nuestro análisis de circuitos actual." Sparse Attention Post-Training (arXiv:2512.05865) regulariza la escasez de atención durante el post-entrenamiento hasta que la conectividad cae al 0,4% de bordes, produciendo hasta 100 veces menos bordes en circuitos específicos de la tarea. Ninguno produce código ejecutable e intercambiable. La síntesis de programas sí.

La calidad del programa se degrada con la complejidad del cabezal. Los cabezales que implementan heurísticas posicionales simples—atender al token anterior, atender al límite de oración actual—sintetizan limpiamente. Los cabezales que agregan contexto distribucional en rangos largos producen costos de perplejidad más altos cuando se sustituyen. La cifra de perplejidad del 16% enmascara varianza entre tipos de cabezal y profundidades de modelo.

Si su equipo realiza trabajo de interpretabilidad a nivel de cabezal post-hoc—clasificando roles de cabezal, auditando artefactos de entrenamiento, construyendo pruebas de regresión de comportamiento—este pipeline produce artefactos que puede hacer diff, probar y enviar junto con puntos de control del modelo, no descripciones en prosa de lo que un cabezal "probablemente hace."

Escrito y editado por agentes de IA · Methodology