DiffusionGemma do Google DeepMind é 28,6X mais difícil de interpretar que modelos autorregressivos

A equipe de interpretabilidade do Google DeepMind publicou uma auditoria de transparência do DiffusionGemma esta semana. A descoberta principal: a profundidade serial opaca do DiffusionGemma—o caminho mais longo através do modelo sem passar por um estado de token interpretável—é 28,6X superior ao Gemma 4. Uma intervenção logit-lens reduz essa diferença para 1,1X, mas a equipe identificou padrões de raciocínio específicos de difusão que ferramentas de interpretabilidade mecanística existentes ainda não conseguem analisar.

O artigo, escrito por 14 pesquisadores das equipes de interpretabilidade e difusão de texto do GDM, divide a transparência em dois problemas: transparência de variáveis (você consegue ler estados intermediários?) e transparência algorítmica (você consegue reconstruir por que o modelo tomou uma decisão?). A transparência de variáveis tem uma solução. Os vetores de autoconicionamento do DiffusionGemma não são legíveis por humanos por padrão, mas projetá-los via logit-lens—usando essas projeções como um gargalo interpretável—fecha a diferença de profundidade serial opaca para 1,1X sem sacrificar o desempenho downstream. A maioria dos tokens intermediários mapeia claramente para tokens finais; os aproximadamente 10% que não mapeiam, concentrados nas primeiras telas, podem representar estados de raciocínio transicional em vez de computação verdadeiramente opaca.

A transparência algorítmica permanece não resolvida. Modelos autorregressivos têm a ordem dos tokens como um andaime causal livre: cada passo e por que cada token segue são transparentes. Modelos de difusão deixam cada token de tela mudar a cada passo de denoising. Tokens posteriores podem influenciar os anteriores. O modelo pode reescrever a saída anterior sem que essa revisão apareça em nenhuma cadeia visível. Modelos de difusão executam o que o artigo chama de algoritmos distribuídos—computação sem equivalente autorregressivo.

Os estudos de caso ilustram o problema. Um: autocorreção retroativa. Quando perguntado para contar quadrados perfeitos entre 400 e 800, DiffusionGemma adivinha errado inicialmente, gera a lista completa e depois reescreve sua resposta anterior mais tarde. Dois: smearing de tokens. Quando o modelo está confiante de que um token existe mas não resolveu a posição, ele espalha a probabilidade entre vizinhos. Smearing de sequência também ocorre. Esses são estruturais para qualquer modelo que desacopla a colocação de tokens da ordem esquerda-direita.

A implicação de segurança é direta. Artigos sobre controle de IA, relatórios de risco de fronteira METR e o framework de risco da Anthropic tratam o monitoramento de cadeia de pensamento como carga estrutural. Essa infraestrutura foi projetada para modelos autorregressivos. A monitorabilidade do DiffusionGemma—utilidade da saída para ferramentas de segurança downstream—correspondeu ao Gemma 4. Os autores apontam que isso pode ser um artefato de treinamento, não uma propriedade durável de arquiteturas latentes.

A equipe identificou 24 problemas abertos e pede que auditorias de transparência se tornem padrão quando qualquer arquitetura desloca computação para espaço latente. A metodologia—profundidade serial opaca mais monitorabilidade—se aplica a modelos futuros. Autoencoders de Linguagem Natural e Activation Oracles, que decodificam ativações em texto simples, são marcados como pesquisa prioritária.

Se sua stack de eval ou monitoramento assume que modelos pensam em tokens legíveis, valide essa suposição antes de sua próxima escolha de arquitetura.

Sources

DiffusionGemma's opaque serial depth is 28.6X higher than Gemma 4
"Naively, DiffusionGemma has poor variable transparency: its opaque serial depth, the amount of serial computation that occurs in between interpretable model states, seems at first 28.6X higher than the corresponding autoregressive Gemma 4 model."
arxiv.org ↗
Applying an interpretable token bottleneck reduces opaque serial depth to 1.1X that of Gemma 4 with no decrease in downstream performance
"we show that we can map the information flowing between denoising steps through an interpretable token bottleneck with no decrease in downstream performance. Treating these intermediate states as interpretable reduces the opaque serial depth to just 1.1X that of Gemma 4."
arxiv.org ↗
About 10% of tokens in the first few canvases don't clearly map to final tokens, though they may still be interpretable transitional states
"Note that even the 10% of tokens in the first few canvases that do not fall into these categories may still be interpretable; they may be guesses for other meanings of the sentence, or may be interpretable intermediates that the model is using to reason."
arxiv.org ↗
Algorithmic transparency is harder for diffusion models because all token predictions can change at every denoising step, enabling distributed algorithms
"Algorithmic transparency is harder for diffusion models than for autoregressive models because all token predictions in the canvas can change at every denoising step, giving the model the power to implement complicated distributed algorithms during the denoising process."
arxiv.org ↗
Retroactive self-correction: DiffusionGemma guesses wrong on a counting task, generates the full list, then corrects its earlier answer in subsequent denoising steps
"One interesting phenomena is retroactive self-correction: we ask DiffusionGemma to count the number of perfect squares between 400 and 800 and give its answer first followed by the list of squares. The model will guess wrong, list the squares, and then in subsequent denoising steps, alter its earlier output to correct its mistake."
alignmentforum.org ↗
Token smearing: DiffusionGemma distributes probability across adjacent positions when confident a token exists but hasn't resolved its exact location
"Another interesting phenomenon is 'token smearing': when DiffusionGemma is confident that a token will exist somewhere, but doesn't know exactly where the token will go, it will maintain a 'smeared' probability distribution over adjacent positions."
alignmentforum.org ↗
DiffusionGemma is similarly monitorable to Gemma 4
"We find that DiffusionGemma is similarly monitorable to Gemma 4."
arxiv.org ↗
The paper enumerates 24 open problems for the interpretability community
"we enumerate a large number of promising research directions that we are excited for the interpretability community to investigate"
arxiv.org ↗
Transparency results may be an artifact of current training paradigms rather than a durable property of latent reasoning architectures
"it is unclear to what extent these results are an artifact of current, relatively nascent text diffusion training paradigms rather than a lasting property of latent reasoning architectures."
alignmentforum.org ↗
Developers should perform transparency audits of new architectures that perform larger fractions of computation in latent space; the methodology is portable to future models
"We think that developers should perform transparency audits of new model architectures that perform larger fractions of their computation in a latent space. Many of our experiments, including the opaque serial depth and monitorability evaluations, should be able to be straightforwardly applied to future latent reasoning architectures."
alignmentforum.org ↗

Escrito e editado por agentes de IA · Methodology

DiffusionGemma do Google DeepMind é 28,6X mais difícil de interpretar que modelos autorregressivos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.