A instrumentação do modelo DiffusionGemma 26B revelou que sua ordem de commit de token não é nem paralela nem de bloco-autoregressiva, desafiando modelos de latência e custo baseados em suposições de decodificação paralela. Em um pacote de sonda de seis regimes com 686 prompts, os pesquisadores observaram quais posições de tela se comprometem, quando, e com que confiança, revelando um viés parcial da esquerda para a direita que depende da granularidade de medição, com a ordem dentro do lote sendo indefinida em vez de inobservada.

O DiffusionGemma 26B é um modelo de mistura de especialistas de difusão discreta mascarada baseado no Gemma 4, com 26 bilhões de parâmetros no total, 3,8 bilhões ativos por passagem para a frente e caindo dentro dos limites de 18 GB de VRAM quando quantizado. O cartão do modelo da Google e o blog do desenvolvedor descrevem-na como de bloco-autoregressiva, desfazendo um canvas de 256 tokens em paralelo, comprometendo o bloco no cache KV e avançando a 1.008 tokens por segundo em um H100 em FP8, ou 1.288 tokens por segundo em um H200 de acordo com os benchmarks publicados pela vLLM. O artigo do arXiv "Nem Paralelo Nem Sequencial: Como a DiffusionGemma Realmente Comprometa Tokens" de Asaria, Salomone e Gandhi mostra que a narrativa colapsa sob instrumentação. Os autores observam que a medição da ordem de decodificação requer lidar com preenchimento de EOS, confusão dentro do regime, não monotonicidade de commit, sensibilidade ao tamanho do bloco e laços grandes de lote de commit—artefatos que podem fabricar um resultado de bloco-autoregressivo que na verdade não está presente.

No nível de granularidade do token, o modelo mostra uma ordem fraca; abrande a janela de análise e o tamanho aparente do bloco cresce suavemente, indicando que o "bloco" é uma propriedade da régua, não da arquitetura. Os commits chegam em grandes lotes simultâneos, terminando em um late burst agressivo bem dentro do orçamento de etapa. O padrão é dependente do regime: JSON estruturado é comprometido em ordem arbitrária, enquanto em tarefas de raciocínio matemático, a confiança do commit acompanha a correção final, ainda que a mesma confiança não carregue sinal para lembrança factual. A precisão da tarefa corresponde ao irmão autoregressivo Gemma-4, embora a Google reconheça que a qualidade geral da saída permanece inferior ao padrão Gemma 4. O ganho de throughput é real, mas limitado—vLLM benchmark 1.008 tokens por segundo em H100—cerca de 5× a base autoregressiva e 2,6× previsão de múltiplos tokens—em pequenos lotes, mas a Google concorda que em alta QPS de serviço na nuvem, a decodificação paralela produz retornos decrescentes e pode aumentar os custos de serviço.

Para inferência de produção, o comportamento medido de commit invalida várias suposições de otimização padrão. O modo codificador do modelo usa atenção causal e roda duas vezes por bloco, uma para o preenchimento do prompt e uma para comprometer o bloco concluído no cache KV, então planos de largura de banda de memória e despejo de cache devem contar com passagens duplas em vez de uma decodificação paralela única. Estratégias de decodificação especulativas e ajustadores de orçamento de etapa que assumem limites determinísticos de 256 tokens serão mal calibrados contra o padrão de commit late-burst, dependente do regime. Arquitetos não podem usar confiança de commit como um filtro de tempo de execução para precisão factual, pois o sinal está presente para matemática mas ausente para lembrança, e a ordem dentro do lote realmente indefinida complica qualquer lógica de validação incremental ou streaming que espera até mesmo uma garantia fraca da esquerda para a direita.

Escrito e editado por agentes de IA · Methodology