Google's DiffusionGemma alcanza 1.000 Tokens por Segundo

Google DeepMind lanzó DiffusionGemma, un modelo experimental de Apache 2.0 para la generación de texto mediante difusión, el 10 de junio. El modelo logra más de 1.000 tokens por segundo en una sola NVIDIA H100, ofreciendo una mejora de latencia 4 veces superior a las bases de autoregresión en escenarios de usuario único. Este modelo de expertos mixtos de 26 mil millones de parámetros activa solo 3.8 mil millones de parámetros por paso adelante y genera bloques completos de 256 tokens en paralelo, moviendo el cuello de botella de la inferencia de la banda ancha de memoria al cálculo. Esto proporciona a los núcleos Tensor una carga de trabajo contigua en lugar de las pausas inactivas típicas de la generación autoregressiva por token por token.

La arquitectura integra una cabeza de difusión en el bastón Gemma 4 26B-A4B, utilizando la misma infraestructura de prefill. El prefill procesa los avances y llena la caché KV con atención causal estándar; la desenmascaración utiliza atención bidireccional sobre un lienzo de 256 tokens de marcador, asegurando 15-20 tokens de alta confianza por paso adelante según la tarjeta del modelo Unsloth HF y utilizandolos como contexto para refinar el resto. El modelo puede volver a enmascarar posiciones de baja confianza en pasadas posteriores, una forma de auto-corrección en tiempo real que no es posible con modelos autoregressivos. Para salidas más largas que 256 tokens, el Difusión Autoregressiva de Bloque se compromete con cada bloque completamente desenmascarado en la caché KV e inicia un nuevo lienzo basado en el historial previo.

DiffusionGemma es el primer LLM de difusión compatible de forma nativa en el marco vLLM a través del modelo de ejecutor v2 ModelState y las rutas de decodificación especulativas existentes con cambios mínimos en el programador. También está soportado en Hugging Face Transformers, MLX, Unsloth y NVIDIA NeMo. Los puntos de control FP8 y NVFP4 están disponibles a través del centro de AI de Red Hat, y una compilación cuantizada cabe dentro de 18 GB de VRAM. El ajuste fino utiliza el conjunto de herramientas Hackable Diffusion JAX.

Los números de rendimiento son específicos del hardware y dependientes del régimen. El blog oficial vLLM informa 1.288 tokens por segundo en un H200 con cuantificación FP8 bajo vLLM, mientras que los informes de la comunidad indican 700+ tokens por segundo en un RTX 5090, y hasta 2.000 tokens por segundo en una Estación DGX. Sin embargo, las arquitecturas de memoria unificada como la DGX Spark de NVIDIA solo logran 150 tokens por segundo, permaneciendo limitadas por la banda ancha de memoria a pesar de la decodificación paralela. El silicio de Apple también ve beneficios silenciosos, haciendo que el cuello de botella del hardware sea condicional en GPU discretos con altas proporciones de cálculo a ancho de banda.

Google afirma que la calidad de la salida de DiffusionGemma es inferior a la de la estándar Gemma 4 y recomienda en contra de desplegarla para cargas de trabajo de calidad de producción sin ajuste fino específico de la tarea. También es inadecuado para el servicio en la nube de alto-QPS, donde los motores autoregressivos procesan miles de solicitudes para saturar el cálculo eficientemente; la decodificación de bloques paralelos ofrece rendimientos decrecientes bajo un procesamiento pesado y puede aumentar el costo por token. Una demostración de ajuste fino de Sudoku destacó la brecha razonadora: la base DiffusionGemma marcó alrededor del cero por ciento en rompecabezas de satisfacción de restricciones simbólicas, mientras que el ajuste fino supervisado en JAX elevó la precisión al 80 por ciento y permitió la salida temprana que redujo los pasos de inferencia.

Para arquitectos que ejecutan inferencia local o de baja concurrencia, el patrón transferible es la inversión de programación en sí: insertar un bucle de desenmascaración de difusión con atención bidireccional en un motor existente para convertir la inferencia de usuario único acoplada a la memoria en una carga de trabajo de núcleo Tensor acoplada al cálculo, de forma portátil y con cambios mínimos en el programador.

Sources

DiffusionGemma generates over 1,000 tokens per second on a single NVIDIA H100 and 4x faster than equivalent autoregressive baselines in single-user regimes
"1000+ tokens per second on a single NVIDIA H100, delivering up to 4x faster text generation on GPUs"
deepmind.google ↗
26B MoE model activates only 3.8B parameters per forward pass and generates 256-token blocks in parallel, shifting inference bottleneck from memory bandwidth to compute
"Operating as a 26B total Mixture of Experts (MoE) model that activates only 3.8B parameters during inference, DiffusionGemma fits comfortably within 18GB VRAM limits"
deepmind.google ↗
Prefill uses causal attention; denoising uses bidirectional attention over a 256-token canvas with real-time self-correction
"Encoder mode uses causal attention and writes to the KV cache. Decoder mode uses bidirectional attention and only reads the KV cache. This is the denoising mode — every position in the canvas can attend to every other position."
vllm-project.github.io ↗
Achieves 15–20 high-confidence tokens per forward pass
"achieves low latency by generating 15-20 tokens per forward pass, unlocking per user generation speeds exceeding 1100 tokens per second"
huggingface.co ↗
Block Autoregressive Diffusion commits each fully denoised 256-token block to the KV cache then initializes a fresh canvas for longer outputs
"Block Autoregressive Diffusion for Variable Length Generation: For sequences longer than 256 tokens, once a 256-token block is fully denoised, the model processes and commits it to the KV cache."
developers.googleblog.com ↗
DiffusionGemma is the first diffusion LLM natively supported in vLLM, built on model runner v2 ModelState and existing speculative decoding paths with minimal scheduler changes
"Google's DiffusionGemma is a 26B-parameter discrete diffusion language model built on the Gemma4 backbone, and the first dLLM supported in vLLM. We integrated DiffusionGemma into vLLM using model runner v2's new ModelState abstraction."
vllm-project.github.io ↗
vLLM blog confirms 1,288 tokens/sec on H200 with FP8 quantization (~6× autoregressive baseline); 1,008 tokens/sec on H100
"The FP8 diffusion model reaches 1,288 generation tokens per second on H200 (~6× a standard autoregressive baseline and ~3× one using multi-token prediction) and 1,008 tokens per second on H100 (~5× and ~2.6×, respectively)."
vllm-project.github.io ↗
DGX Station reaches up to 2,000 tokens/sec; DGX Spark achieves only 150 tokens/sec due to its memory-bandwidth-bound unified architecture
"DiffusionGemma delivers 1,000 tokens/sec on a single NVIDIA H100 Tensor Core GPU, 150 tokens/sec on NVIDIA DGX Spark and up to 2,000 tokens/sec on NVIDIA DGX Station"
blogs.nvidia.com ↗
Apple Silicon unified-memory architectures will not see the same acceleration because they are memory-bandwidth-bound rather than compute-bound
"unified-memory architectures like those in Apple Silicon Macs — which are often memory-bandwidth-bound rather than compute-bound during inference — may not see the same acceleration over autoregressive models"
blog.google ↗
Google explicitly recommends standard Gemma 4 for production quality; DiffusionGemma's quality is lower and parallel decoding raises cost-per-token in high-QPS cloud serving
"In high-QPS cloud serving, autoregressive models can be deployed to saturate compute efficiently, so DiffusionGemma's parallel decoding offers diminishing returns and can result in higher serving costs."
deepmind.google ↗
Base DiffusionGemma scored ~0% on Sudoku; after JAX SFT recipe correctness rose to 80% with early exiting that cut inference steps
"While the base DiffusionGemma model is not specifically trained to solve Sudoku puzzles (~0% success rate), applying the simple JAX SFT recipe on a Sudoku dataset raises correctness to 80% success, while decreasing the overall inference step count."
developers.googleblog.com ↗

Escrito y editado por agentes de IA · Methodology

Google's DiffusionGemma alcanza 1.000 Tokens por Segundo

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.