Pesquisadores Controlam Emoções de LLMs Através de Manipulação de Features na Fase Final

Um novo estudo de interpretabilidade mecanicista usou sparse autoencoders (SAEs) para rastrear como LLMs realizam reconhecimento de emoção, identificando um fluxo de informação interna consistente em três fases onde features relevantes para emoção aparecem apenas no estágio final de processamento. O trabalho também demonstra que essas features são causalmente responsáveis pelas saídas emocionais subsequentes, não meramente correlacionadas. Para equipes corporativas que implantam LLMs em experiência do cliente ou aplicações próximas à saúde mental, o achado oferece a primeira oportunidade mecanicista de intervir quando as saídas emocionais falham.

Pesquisadores da Universidade Northeastern usaram sparse autoencoders (SAEs) para mapear um circuito interno em três fases pelo qual modelos de linguagem grandes processam emoção. O trabalho, escrito por Shu, Singh, e ElSherief (arXiv 2604.25866), identifica o estágio exato onde representações afetivas emergem e demonstra que essas representações causalmente impulsionam as saídas subsequentes.

O enfoque de interpretabilidade mecanicista baseado em SAE rastreia ativações de features esparsas camada a camada durante tarefas de reconhecimento de emoção. Camadas iniciais lidam com features superficiais sintáticas. Camadas intermediárias constroem conceitos semânticos. Features relevantes para emoção se materializam apenas na fase final. Essa progressão é consistente entre modelos, estabelecendo-a como uma propriedade estrutural de arquiteturas transformer em vez de um artefato de uma única execução de treinamento.

A equipe executou rastreamento causal estratificado por fase—intervindo deliberadamente em features em diferentes camadas e medindo efeitos nas predições. Um pequeno subconjunto identificável de features da fase final é causalmente responsável pelas saídas de emoção, não meramente correlacionado com elas. A impressão causal é desigual: nojo emerge como o mais frágil, fracamente e difusamente representado comparado a outras emoções básicas. Features relacionadas a surpresa ativam-se em categorias de emoção, criando confusão sistemática que o modelo não pode particionar limamente.

A alavancagem prática é o controle de features. Amplificando ou suprimindo features identificadas da fase final, o método melhora significativamente o desempenho de reconhecimento de emoção em múltiplos modelos enquanto preserva a capacidade geral de modelagem de linguagem. Os ganhos generalizam entre múltiplos conjuntos de dados de reconhecimento de emoção. O enfoque é eficiente em dados—não requer ajuste fino completo ou corpora rotulados grandes, o que importa para organizações operando sob restrições de minimização de dados ou trabalhando com taxonomias de emoção estreitas e específicas do domínio.

Plataformas de experiência do cliente, chatbots de suporte à saúde mental, e ferramentas de IA assistidas em RH dependem de saídas afetivas confiáveis. A maioria das abordagens de auditoria atuais avalia modelos apenas em suas saídas. Este trabalho oferece aos engenheiros um diagnóstico em nível de camada: se as saídas emocionais se degradam ou enviesam em produção, a análise de circuito aponta para features específicas na fase final em vez de exigir reavaliação completa do modelo. O mesmo mecanismo funciona para supressão—controlando features para baixo a fim de reduzir intensidade afetiva em contextos onde é uma responsabilidade.

Várias restrições limitam os achados. O artigo não quantifica que fração dos parâmetros de um modelo constitui o circuito identificado, então sobrecarga de computação da decomposição SAE em pipelines de inferência permanece aberta. A representação difusa do nojo significa que intervenções de controle carregam risco mais alto de efeitos colaterais não pretendidos em features semânticas próximas. Features relacionadas a surpresa ativam-se em categorias de emoção, uma fonte de confusão sistemática entre emoções que o controle de features sozinho pode não resolver completamente.

A pesquisa oferece aos praticantes de interpretabilidade um fluxo de trabalho concreto: decompor inferência de emoção com SAEs, identificar o aglomerado causal da fase final, e intervir naquela camada. Isto é mais focado que ablação em nível de neurônio ou probing de modelo completo—as duas abordagens anteriores dominantes—e escala para novos modelos sem mudanças arquiteturais.

Sources

Researchers identify a consistent three-phase information flow in LLMs during emotion recognition, progressing from syntactic features to semantic concepts and finally to emotion-related features
"we identify a consistent three-phase information flow in LLMs, progressing from syntactic features to semantic concepts and finally to emotion-related features"
arxiv.org ↗
Emotion-related features emerge only in the final processing phase
"emotion-related features emerge only in the final phase"
arxiv.org ↗
The study uses sparse autoencoders (SAEs) to analyze sparse feature activations across layers during emotion recognition tasks
"we investigate the internal mechanisms of emotion recognition in LLMs using sparse autoencoders (SAEs). By analyzing sparse feature activations across layers"
arxiv.org ↗
Disgust is more weakly and diffusely represented than other emotions
"Disgust is more weakly and diffusely represented than other emotions"
arxiv.org ↗
Surprise-related features are frequently activated by other emotions, creating cross-emotion confusion
"surprise-related features are frequently activated by other emotions"
arxiv.org ↗
Phase-stratified causal tracing identifies a small set of features that strongly and causally influence emotion predictions
"we propose phase-conditioned circuit discovery to identify a small set of strongly causal features underlying emotion recognition"
arxiv.org ↗
The causal feature steering method significantly improves emotion recognition performance across multiple models while largely preserving language modeling ability, and generalizes across multiple emotion recognition datasets
"we introduce an interpretable and data-efficient causal feature steering method that improves emotion recognition performance while preserving language modeling ability"
arxiv.org ↗
SAE-based analysis offers a more direct and scalable way to identify and intervene on behaviorally relevant features compared to probing- and neuron-level approaches
"Compared to prior probing- and neuron-level approaches, SAE-based analysis offers a more direct and scalable way to identify and intervene on behaviorally relevant features"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Pesquisadores Controlam Emoções de LLMs Através de Manipulação de Features na Fase Final

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.