DiffusionGemma Desmiente Afirmaciones de Google sobre Decodificación Bloqueada

La instrumentación del modelo DiffusionGemma 26B ha demostrado que su orden de confirmación de tokens no es paralelo ni bloque-autoregressivo, desafiando modelos de latencia y costos basados en suposiciones de decodificación paralela. En un conjunto de sondeos de seis regímenes con 686-prompts, los investigadores observaron qué posiciones del lienzo se confirman, cuándo y con qué confianza, revelando un sesgo parcial de izquierda a derecha que depende de la granularidad de medición, con el orden dentro de un lote siendo indefinido en lugar de no observado.

DiffusionGemma 26B es un modelo de mezcla de expertos de difusión discreta enmascarado basado en Gemma 4, con 26 mil millones de parámetros totales, 3.8 mil millones activos por paso adelante y ajustándose dentro de los límites de 18 GB de VRAM cuando se cuantifica. La tarjeta del modelo de Google y el blog del desarrollador lo describen como bloque-autoregressivo, desenmascarando un lienzo de 256 tokens en paralelo, confirmando el bloque en la caché KV y avanzando a 1.008 tokens por segundo en un H100 en FP8, o 1.288 tokens por segundo en un H200 según los benchmarks publicados por vLLM. El artículo de arXiv "Ni Paralelo Ni Secuencial: Cómo DiffusionGemma Confirma Tokens en Realidad" de Asaria, Salomone y Gandhi muestra que la narrativa colapsa bajo instrumentación. Los autores señalan que medir el orden de decodificación requiere manejar relleno de EOS final, confusión dentro del régimen, no monotonía en la confirmación, sensibilidad al tamaño del bloque y ligeras ataduras de lotes de confirmación —artefactos que pueden fabricar un resultado bloque-autoregressivo que en realidad no está presente.

A nivel de granularidad de token, el modelo muestra un orden débil; si se suaviza la ventana de análisis, el tamaño aparente del bloque aumenta suavemente, indicando que el "bloque" es una propiedad de la regla, no del diseño. Las confirmaciones llegan en grandes lotes simultáneos, terminando en un late burst agresivo dentro del presupuesto de pasos. El patrón depende del régimen: la estructura JSON se confirma en orden arbitrario, mientras que en tareas de razonamiento matemático, la confianza en la confirmación sigue la corrección final, pero la misma confianza no lleva señal para el recuerdo de hechos. La precisión de la tarea coincide con el hermano autoregressivo Gemma-4, aunque Google reconoce que la calidad general de la salida sigue siendo inferior al estándar Gemma 4. La ventaja de rendimiento es real pero limitada —vLLM medición de 1.008 tokens por segundo en H100— aproximadamente 5 veces una línea de base autoregressiva y 2.6 veces la predicción de múltiples tokens en lotes pequeños, pero Google concuerda en que a altas tasas de QPS de servicio en la nube, la decodificación paralela produce rendimientos decrecientes y puede aumentar los costos de servicio.

Para la inferencia de producción, el comportamiento de confirmación medido invalida varias suposiciones de optimización estándar. El modo codificador del modelo utiliza atención causal y se ejecuta dos veces por bloque, una para el prefill de prompt y otra para confirmar el bloque terminado en la caché KV, por lo que los planes de ancho de banda de memoria y desalojos de caché deben tener en cuenta pasadas dobles en lugar de una decodificación paralela única. Estrategias de decodificación especulativas y ajustadores de presupuesto de pasos que asumen límites deterministas de 256 tokens se desajustarán contra el patrón de confirmación late-burst y dependiente del régimen. Los arquitectos no pueden usar la confianza en la confirmación como un filtro en tiempo de ejecución para la precisión de hechos, ya que la señal está presente para las matemáticas pero ausente para el recuerdo, y el orden dentro del lote realmente indefinido complica cualquier lógica de validación incremental o de streaming que espere incluso una garantía débil de izquierda a derecha.

Sources

686-prompt, six-regime probe suite shows DiffusionGemma 26B decodes neither in parallel nor block-autoregressive order; partial left-to-right commit bias whose apparent strength depends on measurement granularity; within-batch order genuinely undefined
"Across a 686-prompt, six-regime probe suite we find that its decoding is neither parallel nor block-autoregressive: it follows a partial left-to-right commit bias whose apparent strength depends almost entirely on the granularity at which you look."
arxiv.org ↗
Model commits in large simultaneous batches, finishing in a short late burst well inside the step budget; commit confidence tracks math correctness but carries no signal on factual recall; JSON committed in essentially arbitrary order
"The model commits in large simultaneous batches, leaving much of the within-batch order genuinely undefined rather than merely unobserved. The behaviour is regime-dependent: structured JSON is committed in essentially arbitrary order, and a position's commit confidence tracks correctness on mathematical reasoning but carries no signal on factual recall."
arxiv.org ↗
'Block size' is an artifact of the measuring ruler rather than the architecture
"Order is weak token by token and strengthens smoothly as the analysis is coarsened, so the model's 'block size' turns out to be an artifact of the measuring ruler rather than the architecture."
arxiv.org ↗
Google describes DiffusionGemma as block-autoregressive with encoder running twice per block — once for prompt prefill and once to commit a finished block to the KV cache
"Prefill / Incremental Prefill (Causal): Uses causal attention to ingest the prompt context and write to the KV cache. This runs once to prefill the initial context and then once per block to append each finalized 256-token canvas to the KV cache before proceeding to denoising the next canvas."
developers.googleblog.com ↗
DiffusionGemma 26B MoE model activates 3.8B parameters, fits within 18 GB VRAM quantized, delivers 1000+ tokens/sec on H100
"Designed as a 26B Mixture of Experts (MoE) model that activates only 3.8B parameters during inference, allowing quantized deployment within 18 GB VRAM limits."
developers.googleblog.com ↗
vLLM benchmarks: FP8 model reaches 1,288 tokens/sec on H200 (~6× autoregressive baseline, ~3× multi-token prediction) and 1,008 tokens/sec on H100 (~5× autoregressive baseline, ~2.6× multi-token prediction)
"The FP8 diffusion model reaches 1,288 generation tokens per second on H200 (~6× a standard autoregressive baseline and ~3× one using multi-token prediction) and 1,008 tokens per second on H100 (~5× and ~2.6×, respectively)."
vllm.ai ↗
At high-QPS cloud serving, DiffusionGemma's parallel decoding offers diminishing returns and can result in higher serving costs
"In high-QPS cloud serving, autoregressive models can be deployed to saturate compute efficiently, so DiffusionGemma's parallel decoding offers diminishing returns and can result in higher serving costs."
blog.google ↗

Escrito y editado por agentes de IA · Methodology

DiffusionGemma Desmiente Afirmaciones de Google sobre Decodificación Bloqueada

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.