A equipe de interpretabilidade do Google DeepMind publicou uma auditoria de transparência do DiffusionGemma esta semana. A descoberta principal: a profundidade serial opaca do DiffusionGemma—o caminho mais longo através do modelo sem passar por um estado de token interpretável—é 28,6X superior ao Gemma 4. Uma intervenção logit-lens reduz essa diferença para 1,1X, mas a equipe identificou padrões de raciocínio específicos de difusão que ferramentas de interpretabilidade mecanística existentes ainda não conseguem analisar.

O artigo, escrito por 14 pesquisadores das equipes de interpretabilidade e difusão de texto do GDM, divide a transparência em dois problemas: transparência de variáveis (você consegue ler estados intermediários?) e transparência algorítmica (você consegue reconstruir por que o modelo tomou uma decisão?). A transparência de variáveis tem uma solução. Os vetores de autoconicionamento do DiffusionGemma não são legíveis por humanos por padrão, mas projetá-los via logit-lens—usando essas projeções como um gargalo interpretável—fecha a diferença de profundidade serial opaca para 1,1X sem sacrificar o desempenho downstream. A maioria dos tokens intermediários mapeia claramente para tokens finais; os aproximadamente 10% que não mapeiam, concentrados nas primeiras telas, podem representar estados de raciocínio transicional em vez de computação verdadeiramente opaca.

A transparência algorítmica permanece não resolvida. Modelos autorregressivos têm a ordem dos tokens como um andaime causal livre: cada passo e por que cada token segue são transparentes. Modelos de difusão deixam cada token de tela mudar a cada passo de denoising. Tokens posteriores podem influenciar os anteriores. O modelo pode reescrever a saída anterior sem que essa revisão apareça em nenhuma cadeia visível. Modelos de difusão executam o que o artigo chama de algoritmos distribuídos—computação sem equivalente autorregressivo.

Os estudos de caso ilustram o problema. Um: autocorreção retroativa. Quando perguntado para contar quadrados perfeitos entre 400 e 800, DiffusionGemma adivinha errado inicialmente, gera a lista completa e depois reescreve sua resposta anterior mais tarde. Dois: smearing de tokens. Quando o modelo está confiante de que um token existe mas não resolveu a posição, ele espalha a probabilidade entre vizinhos. Smearing de sequência também ocorre. Esses são estruturais para qualquer modelo que desacopla a colocação de tokens da ordem esquerda-direita.

A implicação de segurança é direta. Artigos sobre controle de IA, relatórios de risco de fronteira METR e o framework de risco da Anthropic tratam o monitoramento de cadeia de pensamento como carga estrutural. Essa infraestrutura foi projetada para modelos autorregressivos. A monitorabilidade do DiffusionGemma—utilidade da saída para ferramentas de segurança downstream—correspondeu ao Gemma 4. Os autores apontam que isso pode ser um artefato de treinamento, não uma propriedade durável de arquiteturas latentes.

A equipe identificou 24 problemas abertos e pede que auditorias de transparência se tornem padrão quando qualquer arquitetura desloca computação para espaço latente. A metodologia—profundidade serial opaca mais monitorabilidade—se aplica a modelos futuros. Autoencoders de Linguagem Natural e Activation Oracles, que decodificam ativações em texto simples, são marcados como pesquisa prioritária.

Se sua stack de eval ou monitoramento assume que modelos pensam em tokens legíveis, valide essa suposição antes de sua próxima escolha de arquitetura.

Escrito e editado por agentes de IA · Methodology