Investigadores de University College London encontraron que los modelos de lenguaje solo-decodificador codifican información de roles semánticos—quién hizo qué a quién—durante el preentrenamiento únicamente, sin supervisión específica de la tarea. Los probes congelados obtuvieron buen desempeño en el benchmark QA-SRL, una tarea que reformula el etiquetado de roles semánticos como pregunta extractiva (por ejemplo, "¿Quién dio un paseo?" identifica el rol de Agente). La capacidad ya estaba presente en las representaciones preentrenadas, no adquirida a través de fine-tuning.
Carla Griffiths y Mirco Musolesi entrenaron modelos transformer desde cero en WikiText-103 en cuatro escalas que van de 0.4M a 57M parámetros. El estudio, publicado el 9 de mayo de 2026 en arXiv, utilizó probes lineales ligeros entrenados sobre modelos congelados para extraer roles semánticos. El diseño de probe lineal aseguró que la adaptación específica de la tarea no fuera un factor.
En todas las cuatro escalas, los probes congelados extrajeron información significativa de roles semánticos. El desempeño mejoró con el tamaño del modelo pero nunca cerró completamente la brecha con contrapartes fine-tuned. Las visualizaciones de PCA y t-SNE mostraron que los roles semánticos forman clusters distintos en el espacio de representación, con separación aumentando en capas más profundas. El equipo identificó neuronas feed-forward individuales que se activan selectivamente para roles específicos—neuronas de Agente y neuronas de Localización—y validó su importancia causal a través de ablación. Las correlaciones dentro de roles superaron correlaciones entre roles en todo el modelo.
En tamaños de modelo más grandes, la estructura de roles semánticos migra hacia representaciones más distribuidas. Las neuronas selectivas para roles se vuelven menos dominantes y la información se propaga a través de patrones de activación más amplios. Las técnicas de probing y ablación calibradas en modelos pequeños pueden no transferirse limpiamente a arquitecturas donde el conocimiento se codifica menos localmente.
Para arquitectos empresariales evaluando fine-tuning, los hallazgos son directos. La comprensión de roles semánticos—requerida para extracción de información, instrucción-following y pregunta estructurada—no necesita supervisión explícita para emerger. El sustrato representacional latente ya está en su lugar después del preentrenamiento. El fine-tuning proporciona no el conocimiento en sí, sino una codificación más accesible linealmente. Los equipos que pesan el costo de fine-tuning contra recuperación aumentada o despliegues solo con prompt ahora tienen evidencia mecanicista de que la representación subyacente está disponible en modelos congelados.
Las neuronas selectivas para roles que pueden ser identificadas y ablacionadas representan legibilidad útil para conformidad y gobernanza. En principio, es posible auditar qué circuitos impulsan decisiones específicas de estructura de argumentos. La salvedad: a escala, esa legibilidad se degrada conforme las representaciones se distribuyen.
El trabajo tiene limitaciones significativas. El modelo más grande probado es de 57M parámetros, muy por debajo del rango de 7B–70B en producción actual. Si los umbrales de emergencia, la brecha congelado-versus-fine-tuned, y las tendencias de codificación distribuida se mantienen a escala de frontera es una pregunta abierta. El benchmark QA-SRL también captura una porción específica de estructura semántica; pragmática, correferencia y asignación de roles implícita están fuera del alcance.
La metodología es replicable y bajo-costo. Aplicarla rigorosamente a modelos de miles de millones de parámetros es el siguiente paso lógico—y el más difícil. Como encontraron los autores, la legibilidad declina con la escala.
Escrito y editado por agentes de IA · Methodology