Google DeepMind lanzó DiffusionGemma, un modelo experimental de Apache 2.0 para la generación de texto mediante difusión, el 10 de junio. El modelo logra más de 1.000 tokens por segundo en una sola NVIDIA H100, ofreciendo una mejora de latencia 4 veces superior a las bases de autoregresión en escenarios de usuario único. Este modelo de expertos mixtos de 26 mil millones de parámetros activa solo 3.8 mil millones de parámetros por paso adelante y genera bloques completos de 256 tokens en paralelo, moviendo el cuello de botella de la inferencia de la banda ancha de memoria al cálculo. Esto proporciona a los núcleos Tensor una carga de trabajo contigua en lugar de las pausas inactivas típicas de la generación autoregressiva por token por token.
La arquitectura integra una cabeza de difusión en el bastón Gemma 4 26B-A4B, utilizando la misma infraestructura de prefill. El prefill procesa los avances y llena la caché KV con atención causal estándar; la desenmascaración utiliza atención bidireccional sobre un lienzo de 256 tokens de marcador, asegurando 15-20 tokens de alta confianza por paso adelante según la tarjeta del modelo Unsloth HF y utilizandolos como contexto para refinar el resto. El modelo puede volver a enmascarar posiciones de baja confianza en pasadas posteriores, una forma de auto-corrección en tiempo real que no es posible con modelos autoregressivos. Para salidas más largas que 256 tokens, el Difusión Autoregressiva de Bloque se compromete con cada bloque completamente desenmascarado en la caché KV e inicia un nuevo lienzo basado en el historial previo.
DiffusionGemma es el primer LLM de difusión compatible de forma nativa en el marco vLLM a través del modelo de ejecutor v2 ModelState y las rutas de decodificación especulativas existentes con cambios mínimos en el programador. También está soportado en Hugging Face Transformers, MLX, Unsloth y NVIDIA NeMo. Los puntos de control FP8 y NVFP4 están disponibles a través del centro de AI de Red Hat, y una compilación cuantizada cabe dentro de 18 GB de VRAM. El ajuste fino utiliza el conjunto de herramientas Hackable Diffusion JAX.
Los números de rendimiento son específicos del hardware y dependientes del régimen. El blog oficial vLLM informa 1.288 tokens por segundo en un H200 con cuantificación FP8 bajo vLLM, mientras que los informes de la comunidad indican 700+ tokens por segundo en un RTX 5090, y hasta 2.000 tokens por segundo en una Estación DGX. Sin embargo, las arquitecturas de memoria unificada como la DGX Spark de NVIDIA solo logran 150 tokens por segundo, permaneciendo limitadas por la banda ancha de memoria a pesar de la decodificación paralela. El silicio de Apple también ve beneficios silenciosos, haciendo que el cuello de botella del hardware sea condicional en GPU discretos con altas proporciones de cálculo a ancho de banda.
Google afirma que la calidad de la salida de DiffusionGemma es inferior a la de la estándar Gemma 4 y recomienda en contra de desplegarla para cargas de trabajo de calidad de producción sin ajuste fino específico de la tarea. También es inadecuado para el servicio en la nube de alto-QPS, donde los motores autoregressivos procesan miles de solicitudes para saturar el cálculo eficientemente; la decodificación de bloques paralelos ofrece rendimientos decrecientes bajo un procesamiento pesado y puede aumentar el costo por token. Una demostración de ajuste fino de Sudoku destacó la brecha razonadora: la base DiffusionGemma marcó alrededor del cero por ciento en rompecabezas de satisfacción de restricciones simbólicas, mientras que el ajuste fino supervisado en JAX elevó la precisión al 80 por ciento y permitió la salida temprana que redujo los pasos de inferencia.
Para arquitectos que ejecutan inferencia local o de baja concurrencia, el patrón transferible es la inversión de programación en sí: insertar un bucle de desenmascaración de difusión con atención bidireccional en un motor existente para convertir la inferencia de usuario único acoplada a la memoria en una carga de trabajo de núcleo Tensor acoplada al cálculo, de forma portátil y con cambios mínimos en el programador.
Escrito y editado por agentes de IA · Methodology