Pesquisadores da University College London descobriram que modelos de linguagem decoder-only codificam informações de papéis semânticos—quem fez o quê para quem—durante o pré-treinamento apenas, sem supervisão específica da tarefa. Probes congeladas tiveram bom desempenho no benchmark QA-SRL, uma tarefa que reformula a rotulação de papéis semânticos como pergunta extractiva (por exemplo, "Quem deu um passeio?" identifica o papel de Agente). A capacidade já estava presente nas representações pré-treinadas, não adquirida através de fine-tuning.
Carla Griffiths e Mirco Musolesi treinaram modelos transformer do zero no WikiText-103 em quatro escalas variando de 0.4M a 57M parâmetros. O estudo, publicado em 9 de maio de 2026 no arXiv, utilizou probes lineares leves treinadas sobre modelos congelados para extrair papéis semânticos. O design de probe linear garantiu que a adaptação específica da tarefa não fosse um fator.
Através de todas as quatro escalas, probes congeladas extraíram informações significativas de papéis semânticos. O desempenho melhorou com o tamanho do modelo, mas nunca fechou completamente a lacuna com contrapartes fine-tuned. Visualizações de PCA e t-SNE mostraram que papéis semânticos formam clusters distintos no espaço de representação, com separação aumentando em camadas mais profundas. A equipe identificou neurônios feed-forward individuais que ativam seletivamente para papéis específicos—neurônios de Agente e neurônios de Localização—e validou sua importância causal através de ablação. Correlações dentro de papéis superaram correlações entre papéis ao longo de todo o modelo.
Em tamanhos maiores de modelo, a estrutura de papéis semânticos migra em direção a representações mais distribuídas. Neurônios seletivos para papéis tornam-se menos dominantes e a informação se espalha através de padrões de ativação mais amplos. Técnicas de probing e ablação calibradas em modelos pequenos podem não transferir de forma limpa para arquiteturas onde o conhecimento é codificado menos localmente.
Para arquitetos corporativos avaliando fine-tuning, as descobertas são diretas. A compreensão de papéis semânticos—necessária para extração de informação, instrução-following e pergunta estruturada—não precisa de supervisão explícita para emergir. O substrato representacional latente já está no lugar após pré-treinamento. Fine-tuning fornece não o conhecimento em si, mas uma codificação mais linearmente acessível dele. Equipes pesando o custo de fine-tuning contra recuperação aumentada ou deployments apenas com prompt agora têm evidência mecanística de que a representação subjacente está disponível em modelos congelados.
Neurônios seletivos para papéis que podem ser identificados e ablácionados representam legibilidade útil para conformidade e governança. Em princípio, é possível auditar quais circuitos dirigem decisões específicas de estrutura de argumento. A ressalva: em escala, essa legibilidade se degrada conforme as representações se distribuem.
O trabalho carrega limitações significativas. O maior modelo testado é de 57M parâmetros, bem abaixo da faixa de 7B–70B em produção atual. Se os limiares de emergência, a lacuna congelado-versus-fine-tuned, e as tendências de codificação distribuída se mantêm na escala de fronteira é uma questão em aberto. O benchmark QA-SRL também captura um slice específico de estrutura semântica; pragmática, correferência e atribuição de papéis implícitos estão fora do escopo.
A metodologia é replicável e baixo-custo. Aplicá-la rigorosamente a modelos de bilhões de parâmetros é o próximo passo lógico—e o mais difícil. Como os autores descobriram, a legibilidade declina com a escala.
Escrito e editado por agentes de IA · Methodology