El equipo de interpretabilidad de Google DeepMind publicó una auditoría de transparencia de DiffusionGemma esta semana. El hallazgo principal: la profundidad serial opaca de DiffusionGemma—el camino más largo a través del modelo sin pasar por un estado de token interpretable—es 28,6X mayor que Gemma 4. Una intervención de logit-lens reduce esa brecha a 1,1X, pero el equipo identificó patrones de razonamiento específicos de difusión que las herramientas de interpretabilidad mecanicista existentes aún no pueden procesar.
El artículo, escrito por 14 investigadores de los equipos de interpretabilidad y difusión de texto de GDM, divide la transparencia en dos problemas: transparencia de variables (¿puedes leer estados intermedios?) y transparencia algorítmica (¿puedes reconstruir por qué el modelo tomó una decisión?). La transparencia de variables tiene solución. Los vectores de autoconfiguración de DiffusionGemma no son legibles por humanos de forma predeterminada, pero proyectarlos a través de logit-lens—usando esas proyecciones como un cuello de botella interpretable—cierra la brecha de profundidad serial opaca a 1,1X sin sacrificar el rendimiento descendente. La mayoría de los tokens intermedios se asignan limpiamente a tokens finales; el aproximadamente 10% que no lo hace, concentrado en los primeros lienzos, puede representar estados de razonamiento transicional en lugar de computación verdaderamente opaca.
La transparencia algorítmica sigue sin resolverse. Los modelos autorregressivos tienen el orden de tokens como un andamiaje causal libre: cada paso y por qué cada token sigue son transparentes. Los modelos de difusión permiten que cada token de lienzo cambie en cada paso de desruido. Los tokens posteriores pueden influir en los anteriores. El modelo puede reescribir la salida anterior sin que esa revisión aparezca en ninguna cadena visible. Los modelos de difusión ejecutan lo que el documento llama algoritmos distribuidos—computación sin equivalente autorregressivo.
Los estudios de caso ilustran el problema. Uno: autocorrección retroactiva. Cuando se le pide que cuente cuadrados perfectos entre 400 y 800, DiffusionGemma adivina mal al principio, genera la lista completa y luego reescribe su respuesta anterior más tarde. Dos: difuminación de tokens. Cuando el modelo está seguro de que existe un token pero no ha resuelto la posición, distribuye la probabilidad entre vecinos. También ocurre difuminación de secuencias. Estas son estructurales para cualquier modelo que desacople la colocación de tokens del orden de izquierda a derecha.
La implicación de seguridad es directa. Los documentos sobre control de IA, informes de riesgo de frontera METR y el marco de riesgo de Anthropic tratan el monitoreo de la cadena de pensamiento como carga estructural. Esa infraestructura fue diseñada para modelos autorregressivos. La monitorabilidad de DiffusionGemma—utilidad de salida para herramientas de seguridad descendentes—coincidió con Gemma 4. Los autores señalan que esto puede ser un artefacto de entrenamiento, no una propiedad duradera de las arquitecturas latentes.
El equipo identificó 24 problemas abiertos y pide que las auditorías de transparencia se conviertan en estándar cuando cualquier arquitectura desplaza la computación al espacio latente. La metodología—profundidad serial opaca más monitorabilidad—se aplica a modelos futuros. Los Autocodificadores de Lenguaje Natural y los Oráculos de Activación, que decodifican activaciones en texto sin formato, están marcados como investigación prioritaria.
Si tu stack de eval o monitoreo asume que los modelos piensan en tokens legibles, valida esa suposición antes de tu próxima elección de arquitectura.
Escrito y editado por agentes de IA · Methodology