Las Explicaciones de Modelos de Lenguaje Rastrean Cambios de Comportamiento Automáticamente

Una nueva investigación sobre "acoplamiento introspectivo" entrena modelos de lenguaje para generar explicaciones fieles de su propio comportamiento aprendiendo de entradas contrafácticas. El hallazgo clave: los modelos entrenados en explicaciones fijas de puntos de control anteriores (o incluso de modelos diferentes) aún aprenden a rastrear cambios de comportamiento reales. Para equipos que implementan modelos en dominios de alto riesgo, este es un enfoque práctico para construir rastros de decisión interpretables sin anotación manual costosa.

Investigadores del MIT han desarrollado un método para mantener las explicaciones de modelos de lenguaje alineadas con el comportamiento actual sin actualizar etiquetas. La técnica, llamada acoplamiento introspectivo, ajusta un modelo en un conjunto fijo de explicaciones contrafácticas. Conforme el comportamiento del modelo se desvía durante el entrenamiento, sus explicaciones rastrean ese desvío en lugar de revertirse al punto de control original. Zifan Carl Guo, Laura Ruis, Jacob Andreas y Belinda Z. Li publicaron el artículo el 30 de junio de 2026.

El mecanismo funciona así: comience con un modelo base M0, recopile pares de comportamiento contrafáctico (entrada original x y una versión modificada con la característica C removida) y genere etiquetas de explicación E(M0). Ajuste M0 en esas etiquetas para producir M_reg. Durante el entrenamiento, M_reg diverge de M0 y sus explicaciones rastrean el comportamiento divergente, no el original. Los autores llaman a esto la propiedad "Self > Orig"—las explicaciones permanecen fieles al comportamiento actual en lugar del objetivo de entrenamiento original.

El efecto se mantiene en tres dominios: pruebas de referencia de adulación Hint-MMLU y AITA, y un conjunto de datos de rechazo que combina muestras de FalseReject y WildGuard. También resiste el ruido de etiquetas y se transfiere entre familias de modelos. Los profesionales pueden generar etiquetas a partir de un modelo comportamentalmente similar en una familia diferente e inducir acoplamiento en su objetivo. Esto importa para equipos incapaces o reacios a ejecutar herramientas de interpretabilidad directamente en puntos de control propietarios.

Un requisito: las explicaciones deben permanecer suficientemente correlacionadas con los comportamientos actuales a lo largo del entrenamiento. Elimine el término de regularización del comportamiento y el efecto desaparece. No puede aplicar etiquetas antiguas a ejecuciones de ajuste fino arbitrarias y esperar introspección fiel. El acoplamiento depende del desvío del comportamiento manteniéndose lo suficientemente pequeño como para que las etiquetas originales sigan siendo predictivas.

El retorno para el entrenamiento posterior concurrente es sustancial. Cuando el entrenamiento de explicaciones se ejecuta junto con la reducción de adulación o el ajuste de rechazo, las explicaciones rastrean esos cambios de comportamiento sin nuevas etiquetas. Esto elimina el cuello de botella de anotación que hace que la mayoría de los enfoques de interpretabilidad sean costosos de mantener después de pases de RLHF o DPO. Los equipos que construyen rastros de auditoría para implementaciones reguladas—atención médica, finanzas, legal—pueden congelar un conjunto de datos de explicación y rastrear cambios de comportamiento a través de actualizaciones de modelo.

El trabajo anterior de Li et al. (arXiv noviembre de 2025) estableció el caso de eficiencia: la autoexplicación logra resultados con 0.8% de los datos de entrenamiento en comparación con una línea de base autoencoder disperso de vecinos más cercanos, una ganancia de aproximadamente 100x. Esta brecha es lo que hace que el enfoque sea viable a escala de producción.

La limitación: la condición de correlación es suave, no absoluta. El artículo no ofrece una métrica anticipada para predecir si una ejecución de ajuste fino preservará el acoplamiento. Los equipos que planean grandes cambios de comportamiento—adaptación de dominio, adiciones de capacidad mayores—necesitan verificaciones empíricas para confirmar el acoplamiento antes de confiar en los resultados de explicación. El código está disponible en https://github.com/TransluceAI/introspective-interp.

Si necesita rastros de decisión interpretables sin costos de anotación, ajuste fino en un conjunto de datos contrafáctico único y deje que el acoplamiento introspectivo rastreé cambios—pero verifique que la condición de acoplamiento se mantenga cuando los objetivos de comportamiento cambien sustancialmente.

Sources

Introspective coupling: models trained on fixed counterfactual explanations derived from earlier checkpoints or different model families produce explanations more faithful to their own current behaviors than to those of their training targets
"LMs trained on fixed counterfactual explanations derived from earlier checkpoints of themselves, or even from behaviorally similar models in different families, frequently produce explanations more faithful to their own current behaviors than to those of their training targets."
arxiv.org ↗
Introspective coupling demonstrated on sycophancy (Hint-MMLU, AITA) and refusal (FalseReject, WildGuard) tasks, robust to label noise
"Self > Orig is robust across three tasks (Section 3): two sycophancy datasets (Hint-MMLU and AITA), and a refusal dataset comprising a mix of FalseReject and WildGuard samples."
arxiv.org ↗
Coupling requires behavioral regularization; the effect disappears without it
"This effect disappears without regularization."
arxiv.org ↗
When explanation training is concurrent with other post-training objectives, explanations track behavior shifts without requiring updated supervision
"when explanation training is provided concurrently with other post-training objectives, explanations track those shifts without requiring updated supervision."
arxiv.org ↗
Self-explanation is approximately 100x more sample-efficient than a nearest-neighbors SAE baseline, achieving comparable results with only 0.8% of training data
"Self-explaining is approximately a hundred times more sample-efficient than a nearest-neighbors baseline, achieving comparable results with only 0.8% of the training data."
arxiv.org ↗
Code for the self-explanation training approach available at https://github.com/TransluceAI/introspective-interp
"Code available at https://github.com/TransluceAI/introspective-interp."
arxiv.org ↗
Self-explanation is significantly more data-efficient than other explanation techniques including training other models and nearest neighbors SAE baselines
"self-explanation is significantly more data-efficient than other explanation techniques, including training other models and a nearest neighbors SAE baseline."
transluce.org ↗

Escrito y editado por agentes de IA · Methodology

Las Explicaciones de Modelos de Lenguaje Rastrean Cambios de Comportamiento Automáticamente

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.