Investigadores Controlan Emociones de LLMs Mediante Manipulación de Features en la Fase Final

Un nuevo estudio de interpretabilidad mecanicista utilizó sparse autoencoders (SAEs) para rastrear cómo los LLMs realizan reconocimiento de emociones, identificando un flujo de información interna consistente en tres fases donde las features relevantes para emociones aparecen solo en la etapa final de procesamiento. El trabajo también demuestra que esas features son causalmente responsables de los outputs emocionales posteriores, no meramente correlacionadas. Para equipos corporativos que despliegan LLMs en experiencia del cliente o aplicaciones cercanas a la salud mental, el hallazgo proporciona la primera oportunidad mecanicista de intervenir cuando los outputs emocionales fallan.

Investigadores de la Universidad Northeastern utilizaron sparse autoencoders (SAEs) para mapear un circuito interno en tres fases a través del cual los modelos de lenguaje grandes procesan emociones. El trabajo, escrito por Shu, Singh, y ElSherief (arXiv 2604.25866), identifica la etapa exacta donde emergen representaciones afectivas y demuestra que esas representaciones causalmente impulsan los outputs posteriores.

El enfoque de interpretabilidad mecanicista basado en SAE rastrea activaciones de features dispersas capa a capa durante tareas de reconocimiento de emociones. Las capas iniciales manejan features superficiales sintácticas. Las capas intermediárias construyen conceptos semánticos. Las features relevantes para emociones se materializan solo en la fase final. Esta progresión es consistente entre modelos, estableciéndola como una propiedad estructural de arquitecturas transformer en lugar de un artefacto de una única ejecución de entrenamiento.

El equipo ejecutó rastreo causal estratificado por fase—interviniendo deliberadamente en features en diferentes capas y midiendo efectos en las predicciones. Un subconjunto pequeño e identificable de features de la fase final es causalmente responsable de los outputs de emociones, no meramente correlacionado con ellos. La huella causal es desigual: el asco emerge como el más frágil, débil y difusamente representado comparado con otras emociones básicas. Las features relacionadas con sorpresa se activan en categorías de emociones, creando confusión sistemática que el modelo no puede particionar de manera clara.

La palanca práctica es el control de features. Amplificando o suprimiendo features identificadas de la fase final, el método mejora significativamente el desempeño de reconocimiento de emociones en múltiples modelos mientras preserva la capacidad general de modelado de lenguaje. Las ganancias generalizan entre múltiples conjuntos de datos de reconocimiento de emociones. El enfoque es eficiente en datos—no requiere ajuste fino completo o corpus etiquetados grandes, lo que importa para organizaciones operando bajo restricciones de minimización de datos o trabajando con taxonomías de emociones estrechas y específicas del dominio.

Las plataformas de experiencia del cliente, chatbots de soporte de salud mental, y herramientas de IA asistidas en RH dependen de outputs afectivos confiables. La mayoría de los enfoques de auditoría actuales evalúan modelos solo en sus outputs. Este trabajo proporciona a los ingenieros un diagnóstico a nivel de capa: si los outputs emocionales se degradan o sesgan en producción, el análisis de circuito apunta a features específicas en la fase final en lugar de requerir reevaluación completa del modelo. El mismo mecanismo funciona para supresión—controlando features hacia abajo para reducir intensidad afectiva en contextos donde es un pasivo.

Varias restricciones limitan los hallazgos. El artículo no cuantifica qué fracción de los parámetros de un modelo constituye el circuito identificado, entonces el overhead computacional de descomposición SAE en pipelines de inferencia permanece abierto. La representación difusa del asco significa que las intervenciones de control conllevan mayor riesgo de efectos secundarios no intencionados en features semánticas cercanas. Las features relacionadas con sorpresa se activan en categorías de emociones, una fuente de confusión sistemática entre emociones que el control de features solo puede no resolver completamente.

La investigación proporciona a los practicantes de interpretabilidad un flujo de trabajo concreto: descomponer inferencia de emociones con SAEs, identificar el clúster causal de la fase final, e intervenir en esa capa. Esto es más dirigido que ablación a nivel de neurona o probing de modelo completo—los dos enfoques anteriores dominantes—y escala a nuevos modelos sin cambios arquitectónicos.

Sources

Researchers identify a consistent three-phase information flow in LLMs during emotion recognition, progressing from syntactic features to semantic concepts and finally to emotion-related features
"we identify a consistent three-phase information flow in LLMs, progressing from syntactic features to semantic concepts and finally to emotion-related features"
arxiv.org ↗
Emotion-related features emerge only in the final processing phase
"emotion-related features emerge only in the final phase"
arxiv.org ↗
The study uses sparse autoencoders (SAEs) to analyze sparse feature activations across layers during emotion recognition tasks
"we investigate the internal mechanisms of emotion recognition in LLMs using sparse autoencoders (SAEs). By analyzing sparse feature activations across layers"
arxiv.org ↗
Disgust is more weakly and diffusely represented than other emotions
"Disgust is more weakly and diffusely represented than other emotions"
arxiv.org ↗
Surprise-related features are frequently activated by other emotions, creating cross-emotion confusion
"surprise-related features are frequently activated by other emotions"
arxiv.org ↗
Phase-stratified causal tracing identifies a small set of features that strongly and causally influence emotion predictions
"we propose phase-conditioned circuit discovery to identify a small set of strongly causal features underlying emotion recognition"
arxiv.org ↗
The causal feature steering method significantly improves emotion recognition performance across multiple models while largely preserving language modeling ability, and generalizes across multiple emotion recognition datasets
"we introduce an interpretable and data-efficient causal feature steering method that improves emotion recognition performance while preserving language modeling ability"
arxiv.org ↗
SAE-based analysis offers a more direct and scalable way to identify and intervene on behaviorally relevant features compared to probing- and neuron-level approaches
"Compared to prior probing- and neuron-level approaches, SAE-based analysis offers a more direct and scalable way to identify and intervene on behaviorally relevant features"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Investigadores Controlan Emociones de LLMs Mediante Manipulación de Features en la Fase Final

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.