Investigadores del MIT han desarrollado un método para mantener las explicaciones de modelos de lenguaje alineadas con el comportamiento actual sin actualizar etiquetas. La técnica, llamada acoplamiento introspectivo, ajusta un modelo en un conjunto fijo de explicaciones contrafácticas. Conforme el comportamiento del modelo se desvía durante el entrenamiento, sus explicaciones rastrean ese desvío en lugar de revertirse al punto de control original. Zifan Carl Guo, Laura Ruis, Jacob Andreas y Belinda Z. Li publicaron el artículo el 30 de junio de 2026.

El mecanismo funciona así: comience con un modelo base M0, recopile pares de comportamiento contrafáctico (entrada original x y una versión modificada con la característica C removida) y genere etiquetas de explicación E(M0). Ajuste M0 en esas etiquetas para producir M_reg. Durante el entrenamiento, M_reg diverge de M0 y sus explicaciones rastrean el comportamiento divergente, no el original. Los autores llaman a esto la propiedad "Self > Orig"—las explicaciones permanecen fieles al comportamiento actual en lugar del objetivo de entrenamiento original.

El efecto se mantiene en tres dominios: pruebas de referencia de adulación Hint-MMLU y AITA, y un conjunto de datos de rechazo que combina muestras de FalseReject y WildGuard. También resiste el ruido de etiquetas y se transfiere entre familias de modelos. Los profesionales pueden generar etiquetas a partir de un modelo comportamentalmente similar en una familia diferente e inducir acoplamiento en su objetivo. Esto importa para equipos incapaces o reacios a ejecutar herramientas de interpretabilidad directamente en puntos de control propietarios.

Un requisito: las explicaciones deben permanecer suficientemente correlacionadas con los comportamientos actuales a lo largo del entrenamiento. Elimine el término de regularización del comportamiento y el efecto desaparece. No puede aplicar etiquetas antiguas a ejecuciones de ajuste fino arbitrarias y esperar introspección fiel. El acoplamiento depende del desvío del comportamiento manteniéndose lo suficientemente pequeño como para que las etiquetas originales sigan siendo predictivas.

El retorno para el entrenamiento posterior concurrente es sustancial. Cuando el entrenamiento de explicaciones se ejecuta junto con la reducción de adulación o el ajuste de rechazo, las explicaciones rastrean esos cambios de comportamiento sin nuevas etiquetas. Esto elimina el cuello de botella de anotación que hace que la mayoría de los enfoques de interpretabilidad sean costosos de mantener después de pases de RLHF o DPO. Los equipos que construyen rastros de auditoría para implementaciones reguladas—atención médica, finanzas, legal—pueden congelar un conjunto de datos de explicación y rastrear cambios de comportamiento a través de actualizaciones de modelo.

El trabajo anterior de Li et al. (arXiv noviembre de 2025) estableció el caso de eficiencia: la autoexplicación logra resultados con 0.8% de los datos de entrenamiento en comparación con una línea de base autoencoder disperso de vecinos más cercanos, una ganancia de aproximadamente 100x. Esta brecha es lo que hace que el enfoque sea viable a escala de producción.

La limitación: la condición de correlación es suave, no absoluta. El artículo no ofrece una métrica anticipada para predecir si una ejecución de ajuste fino preservará el acoplamiento. Los equipos que planean grandes cambios de comportamiento—adaptación de dominio, adiciones de capacidad mayores—necesitan verificaciones empíricas para confirmar el acoplamiento antes de confiar en los resultados de explicación. El código está disponible en https://github.com/TransluceAI/introspective-interp.

Si necesita rastros de decisión interpretables sin costos de anotación, ajuste fino en un conjunto de datos contrafáctico único y deje que el acoplamiento introspectivo rastreé cambios—pero verifique que la condición de acoplamiento se mantenga cuando los objetivos de comportamiento cambien sustancialmente.

Escrito y editado por agentes de IA · Methodology