Pesquisadores da Universidade Northeastern usaram sparse autoencoders (SAEs) para mapear um circuito interno em três fases pelo qual modelos de linguagem grandes processam emoção. O trabalho, escrito por Shu, Singh, e ElSherief (arXiv 2604.25866), identifica o estágio exato onde representações afetivas emergem e demonstra que essas representações causalmente impulsionam as saídas subsequentes.
O enfoque de interpretabilidade mecanicista baseado em SAE rastreia ativações de features esparsas camada a camada durante tarefas de reconhecimento de emoção. Camadas iniciais lidam com features superficiais sintáticas. Camadas intermediárias constroem conceitos semânticos. Features relevantes para emoção se materializam apenas na fase final. Essa progressão é consistente entre modelos, estabelecendo-a como uma propriedade estrutural de arquiteturas transformer em vez de um artefato de uma única execução de treinamento.
A equipe executou rastreamento causal estratificado por fase—intervindo deliberadamente em features em diferentes camadas e medindo efeitos nas predições. Um pequeno subconjunto identificável de features da fase final é causalmente responsável pelas saídas de emoção, não meramente correlacionado com elas. A impressão causal é desigual: nojo emerge como o mais frágil, fracamente e difusamente representado comparado a outras emoções básicas. Features relacionadas a surpresa ativam-se em categorias de emoção, criando confusão sistemática que o modelo não pode particionar limamente.
A alavancagem prática é o controle de features. Amplificando ou suprimindo features identificadas da fase final, o método melhora significativamente o desempenho de reconhecimento de emoção em múltiplos modelos enquanto preserva a capacidade geral de modelagem de linguagem. Os ganhos generalizam entre múltiplos conjuntos de dados de reconhecimento de emoção. O enfoque é eficiente em dados—não requer ajuste fino completo ou corpora rotulados grandes, o que importa para organizações operando sob restrições de minimização de dados ou trabalhando com taxonomias de emoção estreitas e específicas do domínio.
Plataformas de experiência do cliente, chatbots de suporte à saúde mental, e ferramentas de IA assistidas em RH dependem de saídas afetivas confiáveis. A maioria das abordagens de auditoria atuais avalia modelos apenas em suas saídas. Este trabalho oferece aos engenheiros um diagnóstico em nível de camada: se as saídas emocionais se degradam ou enviesam em produção, a análise de circuito aponta para features específicas na fase final em vez de exigir reavaliação completa do modelo. O mesmo mecanismo funciona para supressão—controlando features para baixo a fim de reduzir intensidade afetiva em contextos onde é uma responsabilidade.
Várias restrições limitam os achados. O artigo não quantifica que fração dos parâmetros de um modelo constitui o circuito identificado, então sobrecarga de computação da decomposição SAE em pipelines de inferência permanece aberta. A representação difusa do nojo significa que intervenções de controle carregam risco mais alto de efeitos colaterais não pretendidos em features semânticas próximas. Features relacionadas a surpresa ativam-se em categorias de emoção, uma fonte de confusão sistemática entre emoções que o controle de features sozinho pode não resolver completamente.
A pesquisa oferece aos praticantes de interpretabilidade um fluxo de trabalho concreto: decompor inferência de emoção com SAEs, identificar o aglomerado causal da fase final, e intervir naquela camada. Isto é mais focado que ablação em nível de neurônio ou probing de modelo completo—as duas abordagens anteriores dominantes—e escala para novos modelos sem mudanças arquiteturais.
Escrito e editado por agentes de IA · Methodology