DiffusionGemma de Google DeepMind es 28,6X más difícil de interpretar que modelos autorregressivos

El equipo de interpretabilidad de Google DeepMind publicó una auditoría de transparencia de DiffusionGemma esta semana. El hallazgo principal: la profundidad serial opaca de DiffusionGemma—el camino más largo a través del modelo sin pasar por un estado de token interpretable—es 28,6X mayor que Gemma 4. Una intervención de logit-lens reduce esa brecha a 1,1X, pero el equipo identificó patrones de razonamiento específicos de difusión que las herramientas de interpretabilidad mecanicista existentes aún no pueden procesar.

El artículo, escrito por 14 investigadores de los equipos de interpretabilidad y difusión de texto de GDM, divide la transparencia en dos problemas: transparencia de variables (¿puedes leer estados intermedios?) y transparencia algorítmica (¿puedes reconstruir por qué el modelo tomó una decisión?). La transparencia de variables tiene solución. Los vectores de autoconfiguración de DiffusionGemma no son legibles por humanos de forma predeterminada, pero proyectarlos a través de logit-lens—usando esas proyecciones como un cuello de botella interpretable—cierra la brecha de profundidad serial opaca a 1,1X sin sacrificar el rendimiento descendente. La mayoría de los tokens intermedios se asignan limpiamente a tokens finales; el aproximadamente 10% que no lo hace, concentrado en los primeros lienzos, puede representar estados de razonamiento transicional en lugar de computación verdaderamente opaca.

La transparencia algorítmica sigue sin resolverse. Los modelos autorregressivos tienen el orden de tokens como un andamiaje causal libre: cada paso y por qué cada token sigue son transparentes. Los modelos de difusión permiten que cada token de lienzo cambie en cada paso de desruido. Los tokens posteriores pueden influir en los anteriores. El modelo puede reescribir la salida anterior sin que esa revisión aparezca en ninguna cadena visible. Los modelos de difusión ejecutan lo que el documento llama algoritmos distribuidos—computación sin equivalente autorregressivo.

Los estudios de caso ilustran el problema. Uno: autocorrección retroactiva. Cuando se le pide que cuente cuadrados perfectos entre 400 y 800, DiffusionGemma adivina mal al principio, genera la lista completa y luego reescribe su respuesta anterior más tarde. Dos: difuminación de tokens. Cuando el modelo está seguro de que existe un token pero no ha resuelto la posición, distribuye la probabilidad entre vecinos. También ocurre difuminación de secuencias. Estas son estructurales para cualquier modelo que desacople la colocación de tokens del orden de izquierda a derecha.

La implicación de seguridad es directa. Los documentos sobre control de IA, informes de riesgo de frontera METR y el marco de riesgo de Anthropic tratan el monitoreo de la cadena de pensamiento como carga estructural. Esa infraestructura fue diseñada para modelos autorregressivos. La monitorabilidad de DiffusionGemma—utilidad de salida para herramientas de seguridad descendentes—coincidió con Gemma 4. Los autores señalan que esto puede ser un artefacto de entrenamiento, no una propiedad duradera de las arquitecturas latentes.

El equipo identificó 24 problemas abiertos y pide que las auditorías de transparencia se conviertan en estándar cuando cualquier arquitectura desplaza la computación al espacio latente. La metodología—profundidad serial opaca más monitorabilidad—se aplica a modelos futuros. Los Autocodificadores de Lenguaje Natural y los Oráculos de Activación, que decodifican activaciones en texto sin formato, están marcados como investigación prioritaria.

Si tu stack de eval o monitoreo asume que los modelos piensan en tokens legibles, valida esa suposición antes de tu próxima elección de arquitectura.

Sources

DiffusionGemma's opaque serial depth is 28.6X higher than Gemma 4
"Naively, DiffusionGemma has poor variable transparency: its opaque serial depth, the amount of serial computation that occurs in between interpretable model states, seems at first 28.6X higher than the corresponding autoregressive Gemma 4 model."
arxiv.org ↗
Applying an interpretable token bottleneck reduces opaque serial depth to 1.1X that of Gemma 4 with no decrease in downstream performance
"we show that we can map the information flowing between denoising steps through an interpretable token bottleneck with no decrease in downstream performance. Treating these intermediate states as interpretable reduces the opaque serial depth to just 1.1X that of Gemma 4."
arxiv.org ↗
About 10% of tokens in the first few canvases don't clearly map to final tokens, though they may still be interpretable transitional states
"Note that even the 10% of tokens in the first few canvases that do not fall into these categories may still be interpretable; they may be guesses for other meanings of the sentence, or may be interpretable intermediates that the model is using to reason."
arxiv.org ↗
Algorithmic transparency is harder for diffusion models because all token predictions can change at every denoising step, enabling distributed algorithms
"Algorithmic transparency is harder for diffusion models than for autoregressive models because all token predictions in the canvas can change at every denoising step, giving the model the power to implement complicated distributed algorithms during the denoising process."
arxiv.org ↗
Retroactive self-correction: DiffusionGemma guesses wrong on a counting task, generates the full list, then corrects its earlier answer in subsequent denoising steps
"One interesting phenomena is retroactive self-correction: we ask DiffusionGemma to count the number of perfect squares between 400 and 800 and give its answer first followed by the list of squares. The model will guess wrong, list the squares, and then in subsequent denoising steps, alter its earlier output to correct its mistake."
alignmentforum.org ↗
Token smearing: DiffusionGemma distributes probability across adjacent positions when confident a token exists but hasn't resolved its exact location
"Another interesting phenomenon is 'token smearing': when DiffusionGemma is confident that a token will exist somewhere, but doesn't know exactly where the token will go, it will maintain a 'smeared' probability distribution over adjacent positions."
alignmentforum.org ↗
DiffusionGemma is similarly monitorable to Gemma 4
"We find that DiffusionGemma is similarly monitorable to Gemma 4."
arxiv.org ↗
The paper enumerates 24 open problems for the interpretability community
"we enumerate a large number of promising research directions that we are excited for the interpretability community to investigate"
arxiv.org ↗
Transparency results may be an artifact of current training paradigms rather than a durable property of latent reasoning architectures
"it is unclear to what extent these results are an artifact of current, relatively nascent text diffusion training paradigms rather than a lasting property of latent reasoning architectures."
alignmentforum.org ↗
Developers should perform transparency audits of new architectures that perform larger fractions of computation in latent space; the methodology is portable to future models
"We think that developers should perform transparency audits of new model architectures that perform larger fractions of their computation in a latent space. Many of our experiments, including the opaque serial depth and monitorability evaluations, should be able to be straightforwardly applied to future latent reasoning architectures."
alignmentforum.org ↗

Escrito y editado por agentes de IA · Methodology

DiffusionGemma de Google DeepMind es 28,6X más difícil de interpretar que modelos autorregressivos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.