A Decodificação Real da DiffusionGemma Contradiz as Afirmativas de Decodificação em Bloco da Google

A instrumentação do modelo DiffusionGemma 26B revelou que sua ordem de commit de token não é nem paralela nem de bloco-autoregressiva, desafiando modelos de latência e custo baseados em suposições de decodificação paralela. Em um pacote de sonda de seis regimes com 686 prompts, os pesquisadores observaram quais posições de tela se comprometem, quando, e com que confiança, revelando um viés parcial da esquerda para a direita que depende da granularidade de medição, com a ordem dentro do lote sendo indefinida em vez de inobservada.

O DiffusionGemma 26B é um modelo de mistura de especialistas de difusão discreta mascarada baseado no Gemma 4, com 26 bilhões de parâmetros no total, 3,8 bilhões ativos por passagem para a frente e caindo dentro dos limites de 18 GB de VRAM quando quantizado. O cartão do modelo da Google e o blog do desenvolvedor descrevem-na como de bloco-autoregressiva, desfazendo um canvas de 256 tokens em paralelo, comprometendo o bloco no cache KV e avançando a 1.008 tokens por segundo em um H100 em FP8, ou 1.288 tokens por segundo em um H200 de acordo com os benchmarks publicados pela vLLM. O artigo do arXiv "Nem Paralelo Nem Sequencial: Como a DiffusionGemma Realmente Comprometa Tokens" de Asaria, Salomone e Gandhi mostra que a narrativa colapsa sob instrumentação. Os autores observam que a medição da ordem de decodificação requer lidar com preenchimento de EOS, confusão dentro do regime, não monotonicidade de commit, sensibilidade ao tamanho do bloco e laços grandes de lote de commit—artefatos que podem fabricar um resultado de bloco-autoregressivo que na verdade não está presente.

No nível de granularidade do token, o modelo mostra uma ordem fraca; abrande a janela de análise e o tamanho aparente do bloco cresce suavemente, indicando que o "bloco" é uma propriedade da régua, não da arquitetura. Os commits chegam em grandes lotes simultâneos, terminando em um late burst agressivo bem dentro do orçamento de etapa. O padrão é dependente do regime: JSON estruturado é comprometido em ordem arbitrária, enquanto em tarefas de raciocínio matemático, a confiança do commit acompanha a correção final, ainda que a mesma confiança não carregue sinal para lembrança factual. A precisão da tarefa corresponde ao irmão autoregressivo Gemma-4, embora a Google reconheça que a qualidade geral da saída permanece inferior ao padrão Gemma 4. O ganho de throughput é real, mas limitado—vLLM benchmark 1.008 tokens por segundo em H100—cerca de 5× a base autoregressiva e 2,6× previsão de múltiplos tokens—em pequenos lotes, mas a Google concorda que em alta QPS de serviço na nuvem, a decodificação paralela produz retornos decrescentes e pode aumentar os custos de serviço.

Para inferência de produção, o comportamento medido de commit invalida várias suposições de otimização padrão. O modo codificador do modelo usa atenção causal e roda duas vezes por bloco, uma para o preenchimento do prompt e uma para comprometer o bloco concluído no cache KV, então planos de largura de banda de memória e despejo de cache devem contar com passagens duplas em vez de uma decodificação paralela única. Estratégias de decodificação especulativas e ajustadores de orçamento de etapa que assumem limites determinísticos de 256 tokens serão mal calibrados contra o padrão de commit late-burst, dependente do regime. Arquitetos não podem usar confiança de commit como um filtro de tempo de execução para precisão factual, pois o sinal está presente para matemática mas ausente para lembrança, e a ordem dentro do lote realmente indefinida complica qualquer lógica de validação incremental ou streaming que espera até mesmo uma garantia fraca da esquerda para a direita.

Sources

686-prompt, six-regime probe suite shows DiffusionGemma 26B decodes neither in parallel nor block-autoregressive order; partial left-to-right commit bias whose apparent strength depends on measurement granularity; within-batch order genuinely undefined
"Across a 686-prompt, six-regime probe suite we find that its decoding is neither parallel nor block-autoregressive: it follows a partial left-to-right commit bias whose apparent strength depends almost entirely on the granularity at which you look."
arxiv.org ↗
Model commits in large simultaneous batches, finishing in a short late burst well inside the step budget; commit confidence tracks math correctness but carries no signal on factual recall; JSON committed in essentially arbitrary order
"The model commits in large simultaneous batches, leaving much of the within-batch order genuinely undefined rather than merely unobserved. The behaviour is regime-dependent: structured JSON is committed in essentially arbitrary order, and a position's commit confidence tracks correctness on mathematical reasoning but carries no signal on factual recall."
arxiv.org ↗
'Block size' is an artifact of the measuring ruler rather than the architecture
"Order is weak token by token and strengthens smoothly as the analysis is coarsened, so the model's 'block size' turns out to be an artifact of the measuring ruler rather than the architecture."
arxiv.org ↗
Google describes DiffusionGemma as block-autoregressive with encoder running twice per block — once for prompt prefill and once to commit a finished block to the KV cache
"Prefill / Incremental Prefill (Causal): Uses causal attention to ingest the prompt context and write to the KV cache. This runs once to prefill the initial context and then once per block to append each finalized 256-token canvas to the KV cache before proceeding to denoising the next canvas."
developers.googleblog.com ↗
DiffusionGemma 26B MoE model activates 3.8B parameters, fits within 18 GB VRAM quantized, delivers 1000+ tokens/sec on H100
"Designed as a 26B Mixture of Experts (MoE) model that activates only 3.8B parameters during inference, allowing quantized deployment within 18 GB VRAM limits."
developers.googleblog.com ↗
vLLM benchmarks: FP8 model reaches 1,288 tokens/sec on H200 (~6× autoregressive baseline, ~3× multi-token prediction) and 1,008 tokens/sec on H100 (~5× autoregressive baseline, ~2.6× multi-token prediction)
"The FP8 diffusion model reaches 1,288 generation tokens per second on H200 (~6× a standard autoregressive baseline and ~3× one using multi-token prediction) and 1,008 tokens per second on H100 (~5× and ~2.6×, respectively)."
vllm.ai ↗
At high-QPS cloud serving, DiffusionGemma's parallel decoding offers diminishing returns and can result in higher serving costs
"In high-QPS cloud serving, autoregressive models can be deployed to saturate compute efficiently, so DiffusionGemma's parallel decoding offers diminishing returns and can result in higher serving costs."
blog.google ↗

Escrito e editado por agentes de IA · Methodology

A Decodificação Real da DiffusionGemma Contradiz as Afirmativas de Decodificação em Bloco da Google

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.