Google DeepMind lançou o DiffusionGemma, um modelo experimental Apache 2.0 para geração de texto por difusão, no dia 10 de junho. O modelo atinge mais de 1.000 tokens por segundo em um único NVIDIA H100, oferecendo uma melhoria de latência de 4x em relação às linhas de base autoregressivas em cenários de único usuário. Este modelo de mistura de especialistas com 26 bilhões de parâmetros ativa apenas 3,8 bilhões de parâmetros por passagem para frente e gera blocos inteiros de 256 tokens em paralelo, mudando o gargalo de inferência do bandwidth de memória para computação. Isso fornece aos núcleos Tensor uma carga de trabalho contínua em vez dos intervalos ocioso típicos da geração autoregressiva por token.
A arquitetura integra uma cabeça de difusão no backbone Gemma 4 26B-A4B, usando a mesma infraestrutura de prefill. O prefill processa prompts e preenche o cache KV com atenção causal padrão; o denoising usa atenção bidirecional em um canvas de 256 tokens de espaço reservado, garantindo 15-20 tokens de alta confiança por passagem para frente de acordo com o cartão do modelo Unsloth HF e usando-os como contexto para refinar o restante. O modelo pode re-noiser posições de baixa confiança em passagens subsequentes, uma forma de auto-correção em tempo real que não é possível com modelos autoregressivos. Para saídas mais longas que 256 tokens, o Block Autoregressive Diffusion compromete cada bloco completamente denoised no cache KV e inicia um novo canvas com base no histórico anterior.
DiffusionGemma é o primeiro LLM de difusão suportado nativamente no framework vLLM via o modelo runner v2 ModelState e caminhos de decodificação especulativa existentes com mudanças mínimas no agendador. Também é suportado em Hugging Face Transformers, MLX, Unsloth e NVIDIA NeMo. Os pontos de verificação FP8 e NVFP4 estão disponíveis através do hub de IA da Red Hat, e uma compilação quantizada cabe dentro de 18 GB de VRAM. O ajuste fino emprega a caixa de ferramentas Hackable Diffusion JAX.
Os números de taxa de transferência são específicos do hardware e dependentes do regime. O blog oficial vLLM relata 1.288 tokens por segundo em um H200 com quantização FP8 sob vLLM, enquanto relatórios da comunidade indicam 700+ tokens por segundo em um RTX 5090 e até 2.000 tokens por segundo em uma DGX Station. No entanto, arquiteturas de memória unificada como a DGX Spark da NVIDIA atingem apenas 150 tokens por segundo, permanecendo limitadas pelo bandwidth de memória, apesar da decodificação paralela. O silício da Apple também vê benefícios reduzidos, fazendo com que o gargalo de hardware dependa condicionalmente de GPUs discretos com altas taxas de computação para bandwidth.
Google afirma que a qualidade da saída do DiffusionGemma é inferior à do Gemma 4 padrão e recomenda contra sua implantação para cargas de trabalho de qualidade de produção sem ajuste fino específico da tarefa. Também é inadequado para alta QPS no serviço de nuvem, onde os motores autoregressivos agrupam milhares de solicitações para saturar a computação eficientemente; a decodificação de bloco paralelo oferece retornos decrescentes sob agrupamento pesado e pode aumentar o custo por token. Um demo de ajuste fino do Sudoku realçou a lacuna de raciocínio: o DiffusionGemma base marcou cerca de zero por cento em quebra-cabeças de satisfação de restrições simbólicas, enquanto o ajuste fino supervisionado no JAX elevou a precisão para 80 por cento e permitiu saídas antecipadas que reduziram as etapas de inferência.
Para arquitetos que executam inferência local ou de baixa concorrência, o padrão transferível é a própria inversão de agendamento - inserindo um loop de denoising de difusão com atenção bidirecional em um motor existente para converter a inferência de usuário único acoplada à memória em uma carga de trabalho acoplada ao computador Tensor Core, portátil e com mudanças mínimas no agendador.
Escrito e editado por agentes de IA · Methodology