Google's DiffusionGemma Atinge 1.000 Tokens por Segundo

Google DeepMind lançou o DiffusionGemma, um modelo experimental Apache 2.0 para geração de texto por difusão, no dia 10 de junho. O modelo atinge mais de 1.000 tokens por segundo em um único NVIDIA H100, oferecendo uma melhoria de latência de 4x em relação às linhas de base autoregressivas em cenários de único usuário. Este modelo de mistura de especialistas com 26 bilhões de parâmetros ativa apenas 3,8 bilhões de parâmetros por passagem para frente e gera blocos inteiros de 256 tokens em paralelo, mudando o gargalo de inferência do bandwidth de memória para computação. Isso fornece aos núcleos Tensor uma carga de trabalho contínua em vez dos intervalos ocioso típicos da geração autoregressiva por token.

A arquitetura integra uma cabeça de difusão no backbone Gemma 4 26B-A4B, usando a mesma infraestrutura de prefill. O prefill processa prompts e preenche o cache KV com atenção causal padrão; o denoising usa atenção bidirecional em um canvas de 256 tokens de espaço reservado, garantindo 15-20 tokens de alta confiança por passagem para frente de acordo com o cartão do modelo Unsloth HF e usando-os como contexto para refinar o restante. O modelo pode re-noiser posições de baixa confiança em passagens subsequentes, uma forma de auto-correção em tempo real que não é possível com modelos autoregressivos. Para saídas mais longas que 256 tokens, o Block Autoregressive Diffusion compromete cada bloco completamente denoised no cache KV e inicia um novo canvas com base no histórico anterior.

DiffusionGemma é o primeiro LLM de difusão suportado nativamente no framework vLLM via o modelo runner v2 ModelState e caminhos de decodificação especulativa existentes com mudanças mínimas no agendador. Também é suportado em Hugging Face Transformers, MLX, Unsloth e NVIDIA NeMo. Os pontos de verificação FP8 e NVFP4 estão disponíveis através do hub de IA da Red Hat, e uma compilação quantizada cabe dentro de 18 GB de VRAM. O ajuste fino emprega a caixa de ferramentas Hackable Diffusion JAX.

Os números de taxa de transferência são específicos do hardware e dependentes do regime. O blog oficial vLLM relata 1.288 tokens por segundo em um H200 com quantização FP8 sob vLLM, enquanto relatórios da comunidade indicam 700+ tokens por segundo em um RTX 5090 e até 2.000 tokens por segundo em uma DGX Station. No entanto, arquiteturas de memória unificada como a DGX Spark da NVIDIA atingem apenas 150 tokens por segundo, permanecendo limitadas pelo bandwidth de memória, apesar da decodificação paralela. O silício da Apple também vê benefícios reduzidos, fazendo com que o gargalo de hardware dependa condicionalmente de GPUs discretos com altas taxas de computação para bandwidth.

Google afirma que a qualidade da saída do DiffusionGemma é inferior à do Gemma 4 padrão e recomenda contra sua implantação para cargas de trabalho de qualidade de produção sem ajuste fino específico da tarefa. Também é inadequado para alta QPS no serviço de nuvem, onde os motores autoregressivos agrupam milhares de solicitações para saturar a computação eficientemente; a decodificação de bloco paralelo oferece retornos decrescentes sob agrupamento pesado e pode aumentar o custo por token. Um demo de ajuste fino do Sudoku realçou a lacuna de raciocínio: o DiffusionGemma base marcou cerca de zero por cento em quebra-cabeças de satisfação de restrições simbólicas, enquanto o ajuste fino supervisionado no JAX elevou a precisão para 80 por cento e permitiu saídas antecipadas que reduziram as etapas de inferência.

Para arquitetos que executam inferência local ou de baixa concorrência, o padrão transferível é a própria inversão de agendamento - inserindo um loop de denoising de difusão com atenção bidirecional em um motor existente para converter a inferência de usuário único acoplada à memória em uma carga de trabalho acoplada ao computador Tensor Core, portátil e com mudanças mínimas no agendador.

Sources

DiffusionGemma generates over 1,000 tokens per second on a single NVIDIA H100 and 4x faster than equivalent autoregressive baselines in single-user regimes
"1000+ tokens per second on a single NVIDIA H100, delivering up to 4x faster text generation on GPUs"
deepmind.google ↗
26B MoE model activates only 3.8B parameters per forward pass and generates 256-token blocks in parallel, shifting inference bottleneck from memory bandwidth to compute
"Operating as a 26B total Mixture of Experts (MoE) model that activates only 3.8B parameters during inference, DiffusionGemma fits comfortably within 18GB VRAM limits"
deepmind.google ↗
Prefill uses causal attention; denoising uses bidirectional attention over a 256-token canvas with real-time self-correction
"Encoder mode uses causal attention and writes to the KV cache. Decoder mode uses bidirectional attention and only reads the KV cache. This is the denoising mode — every position in the canvas can attend to every other position."
vllm-project.github.io ↗
Achieves 15–20 high-confidence tokens per forward pass
"achieves low latency by generating 15-20 tokens per forward pass, unlocking per user generation speeds exceeding 1100 tokens per second"
huggingface.co ↗
Block Autoregressive Diffusion commits each fully denoised 256-token block to the KV cache then initializes a fresh canvas for longer outputs
"Block Autoregressive Diffusion for Variable Length Generation: For sequences longer than 256 tokens, once a 256-token block is fully denoised, the model processes and commits it to the KV cache."
developers.googleblog.com ↗
DiffusionGemma is the first diffusion LLM natively supported in vLLM, built on model runner v2 ModelState and existing speculative decoding paths with minimal scheduler changes
"Google's DiffusionGemma is a 26B-parameter discrete diffusion language model built on the Gemma4 backbone, and the first dLLM supported in vLLM. We integrated DiffusionGemma into vLLM using model runner v2's new ModelState abstraction."
vllm-project.github.io ↗
vLLM blog confirms 1,288 tokens/sec on H200 with FP8 quantization (~6× autoregressive baseline); 1,008 tokens/sec on H100
"The FP8 diffusion model reaches 1,288 generation tokens per second on H200 (~6× a standard autoregressive baseline and ~3× one using multi-token prediction) and 1,008 tokens per second on H100 (~5× and ~2.6×, respectively)."
vllm-project.github.io ↗
DGX Station reaches up to 2,000 tokens/sec; DGX Spark achieves only 150 tokens/sec due to its memory-bandwidth-bound unified architecture
"DiffusionGemma delivers 1,000 tokens/sec on a single NVIDIA H100 Tensor Core GPU, 150 tokens/sec on NVIDIA DGX Spark and up to 2,000 tokens/sec on NVIDIA DGX Station"
blogs.nvidia.com ↗
Apple Silicon unified-memory architectures will not see the same acceleration because they are memory-bandwidth-bound rather than compute-bound
"unified-memory architectures like those in Apple Silicon Macs — which are often memory-bandwidth-bound rather than compute-bound during inference — may not see the same acceleration over autoregressive models"
blog.google ↗
Google explicitly recommends standard Gemma 4 for production quality; DiffusionGemma's quality is lower and parallel decoding raises cost-per-token in high-QPS cloud serving
"In high-QPS cloud serving, autoregressive models can be deployed to saturate compute efficiently, so DiffusionGemma's parallel decoding offers diminishing returns and can result in higher serving costs."
deepmind.google ↗
Base DiffusionGemma scored ~0% on Sudoku; after JAX SFT recipe correctness rose to 80% with early exiting that cut inference steps
"While the base DiffusionGemma model is not specifically trained to solve Sudoku puzzles (~0% success rate), applying the simple JAX SFT recipe on a Sudoku dataset raises correctness to 80% success, while decreasing the overall inference step count."
developers.googleblog.com ↗

Escrito e editado por agentes de IA · Methodology

Google's DiffusionGemma Atinge 1.000 Tokens por Segundo

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.