Investigadores de la Universidad Northeastern utilizaron sparse autoencoders (SAEs) para mapear un circuito interno en tres fases a través del cual los modelos de lenguaje grandes procesan emociones. El trabajo, escrito por Shu, Singh, y ElSherief (arXiv 2604.25866), identifica la etapa exacta donde emergen representaciones afectivas y demuestra que esas representaciones causalmente impulsan los outputs posteriores.
El enfoque de interpretabilidad mecanicista basado en SAE rastrea activaciones de features dispersas capa a capa durante tareas de reconocimiento de emociones. Las capas iniciales manejan features superficiales sintácticas. Las capas intermediárias construyen conceptos semánticos. Las features relevantes para emociones se materializan solo en la fase final. Esta progresión es consistente entre modelos, estableciéndola como una propiedad estructural de arquitecturas transformer en lugar de un artefacto de una única ejecución de entrenamiento.
El equipo ejecutó rastreo causal estratificado por fase—interviniendo deliberadamente en features en diferentes capas y midiendo efectos en las predicciones. Un subconjunto pequeño e identificable de features de la fase final es causalmente responsable de los outputs de emociones, no meramente correlacionado con ellos. La huella causal es desigual: el asco emerge como el más frágil, débil y difusamente representado comparado con otras emociones básicas. Las features relacionadas con sorpresa se activan en categorías de emociones, creando confusión sistemática que el modelo no puede particionar de manera clara.
La palanca práctica es el control de features. Amplificando o suprimiendo features identificadas de la fase final, el método mejora significativamente el desempeño de reconocimiento de emociones en múltiples modelos mientras preserva la capacidad general de modelado de lenguaje. Las ganancias generalizan entre múltiples conjuntos de datos de reconocimiento de emociones. El enfoque es eficiente en datos—no requiere ajuste fino completo o corpus etiquetados grandes, lo que importa para organizaciones operando bajo restricciones de minimización de datos o trabajando con taxonomías de emociones estrechas y específicas del dominio.
Las plataformas de experiencia del cliente, chatbots de soporte de salud mental, y herramientas de IA asistidas en RH dependen de outputs afectivos confiables. La mayoría de los enfoques de auditoría actuales evalúan modelos solo en sus outputs. Este trabajo proporciona a los ingenieros un diagnóstico a nivel de capa: si los outputs emocionales se degradan o sesgan en producción, el análisis de circuito apunta a features específicas en la fase final en lugar de requerir reevaluación completa del modelo. El mismo mecanismo funciona para supresión—controlando features hacia abajo para reducir intensidad afectiva en contextos donde es un pasivo.
Varias restricciones limitan los hallazgos. El artículo no cuantifica qué fracción de los parámetros de un modelo constituye el circuito identificado, entonces el overhead computacional de descomposición SAE en pipelines de inferencia permanece abierto. La representación difusa del asco significa que las intervenciones de control conllevan mayor riesgo de efectos secundarios no intencionados en features semánticas cercanas. Las features relacionadas con sorpresa se activan en categorías de emociones, una fuente de confusión sistemática entre emociones que el control de features solo puede no resolver completamente.
La investigación proporciona a los practicantes de interpretabilidad un flujo de trabajo concreto: descomponer inferencia de emociones con SAEs, identificar el clúster causal de la fase final, e intervenir en esa capa. Esto es más dirigido que ablación a nivel de neurona o probing de modelo completo—los dos enfoques anteriores dominantes—y escala a nuevos modelos sin cambios arquitectónicos.
Escrito y editado por agentes de IA · Methodology