La instrumentación del modelo DiffusionGemma 26B ha demostrado que su orden de confirmación de tokens no es paralelo ni bloque-autoregressivo, desafiando modelos de latencia y costos basados en suposiciones de decodificación paralela. En un conjunto de sondeos de seis regímenes con 686-prompts, los investigadores observaron qué posiciones del lienzo se confirman, cuándo y con qué confianza, revelando un sesgo parcial de izquierda a derecha que depende de la granularidad de medición, con el orden dentro de un lote siendo indefinido en lugar de no observado.

DiffusionGemma 26B es un modelo de mezcla de expertos de difusión discreta enmascarado basado en Gemma 4, con 26 mil millones de parámetros totales, 3.8 mil millones activos por paso adelante y ajustándose dentro de los límites de 18 GB de VRAM cuando se cuantifica. La tarjeta del modelo de Google y el blog del desarrollador lo describen como bloque-autoregressivo, desenmascarando un lienzo de 256 tokens en paralelo, confirmando el bloque en la caché KV y avanzando a 1.008 tokens por segundo en un H100 en FP8, o 1.288 tokens por segundo en un H200 según los benchmarks publicados por vLLM. El artículo de arXiv "Ni Paralelo Ni Secuencial: Cómo DiffusionGemma Confirma Tokens en Realidad" de Asaria, Salomone y Gandhi muestra que la narrativa colapsa bajo instrumentación. Los autores señalan que medir el orden de decodificación requiere manejar relleno de EOS final, confusión dentro del régimen, no monotonía en la confirmación, sensibilidad al tamaño del bloque y ligeras ataduras de lotes de confirmación —artefactos que pueden fabricar un resultado bloque-autoregressivo que en realidad no está presente.

A nivel de granularidad de token, el modelo muestra un orden débil; si se suaviza la ventana de análisis, el tamaño aparente del bloque aumenta suavemente, indicando que el "bloque" es una propiedad de la regla, no del diseño. Las confirmaciones llegan en grandes lotes simultáneos, terminando en un late burst agresivo dentro del presupuesto de pasos. El patrón depende del régimen: la estructura JSON se confirma en orden arbitrario, mientras que en tareas de razonamiento matemático, la confianza en la confirmación sigue la corrección final, pero la misma confianza no lleva señal para el recuerdo de hechos. La precisión de la tarea coincide con el hermano autoregressivo Gemma-4, aunque Google reconoce que la calidad general de la salida sigue siendo inferior al estándar Gemma 4. La ventaja de rendimiento es real pero limitada —vLLM medición de 1.008 tokens por segundo en H100— aproximadamente 5 veces una línea de base autoregressiva y 2.6 veces la predicción de múltiples tokens en lotes pequeños, pero Google concuerda en que a altas tasas de QPS de servicio en la nube, la decodificación paralela produce rendimientos decrecientes y puede aumentar los costos de servicio.

Para la inferencia de producción, el comportamiento de confirmación medido invalida varias suposiciones de optimización estándar. El modo codificador del modelo utiliza atención causal y se ejecuta dos veces por bloque, una para el prefill de prompt y otra para confirmar el bloque terminado en la caché KV, por lo que los planes de ancho de banda de memoria y desalojos de caché deben tener en cuenta pasadas dobles en lugar de una decodificación paralela única. Estrategias de decodificación especulativas y ajustadores de presupuesto de pasos que asumen límites deterministas de 256 tokens se desajustarán contra el patrón de confirmación late-burst y dependiente del régimen. Los arquitectos no pueden usar la confianza en la confirmación como un filtro en tiempo de ejecución para la precisión de hechos, ya que la señal está presente para las matemáticas pero ausente para el recuerdo, y el orden dentro del lote realmente indefinido complica cualquier lógica de validación incremental o de streaming que espere incluso una garantía débil de izquierda a derecha.

Escrito y editado por agentes de IA · Methodology