LoopMDM Reduce FLOPs de Entrenamiento 3.3× al Reciclar Capas Transformer

Investigadores de instituciones coreanas han publicado LoopMDM, una arquitectura de modelo de lenguaje con difusión enmascarada que recicla capas transformer en lugar de apilar nuevas. Al hacer bucles selectivos de las capas de inicio-medio de un transformer estándar durante el entrenamiento, el enfoque ofrece una reducción de 3.3× en FLOPs de entrenamiento para alcanzar la misma perplejidad que una línea de base MDM de tamaño equivalente, mientras logra ganancias de hasta 8,5 puntos en GSM8K de razonamiento matemático en el checkpoint final.

El mecanismo central es escalado de profundidad libre de parámetros. Las leyes de escala de transformer estándar requieren agregar capas, lo que aumenta la memoria y el cálculo por token permanentemente. LoopMDM re-ejecuta un bloque designado de capas de inicio-medio N veces por pasada hacia adelante durante el entrenamiento — un recuento de bucles que no agrega parámetros. El modelo ve el equivalente a una red mucho más profunda sin pesos adicionales. En la inferencia, los operadores pueden variar el recuento de bucles de forma independiente, agregando cálculo para entradas difíciles o reduciéndolo para consultas sensibles a la latencia.

¿Por qué capas de inicio-medio? Los autores muestran mediante análisis de atención que esas capas realizan el trabajo de coordinación más pesado en difusión enmascarada: determinar qué posiciones enmascaradas atienden a qué contexto no enmascarado antes de que los cabezales de predicción finales limpien. Hacer bucles amplifica las interacciones entre posiciones enmascaradas. Las capas primera y última permanecen sin bucle; manejan la alineación de embedding y la proyección de salida, tareas que no se benefician de la iteración.

Esta flexibilidad de inferencia importa para los profesionales que comparan MDMs con modelos autorregresivos. Los modelos no-autorregresivos paralelizan entre posiciones de secuencia pero sufren presupuestos de cálculo de pasada fija que limitan la calidad en razonamiento difícil. LoopMDM proporciona una válvula de escape: cuando una muestra parece ambigua durante la generación, bucles adicionales cuestan latencia pero no ancho de banda de memoria de caché KV, a diferencia de decodificación especulativa o chain-of-thought en modelos AR. Los autores también muestran que los recuentos de bucles adaptativos a lo largo de la trayectoria de difusión — más bucles en pasos fuertemente enmascarados al principio, menos en pasadas de limpieza posteriores — obtienen ganancias de eficiencia sin afectar la precisión final.

La imagen de benchmark es alentadora pero limitada. LoopMDM supera a MDMs del mismo recuento de parámetros y MDMs no-bucle más profundos entrenados con cálculo por paso comparable. Las ganancias en GSM8K alcanzan 8,5 puntos en múltiples corpus de pre-entrenamiento. Ausente de los resultados actuales: rendimiento en tokens por segundo contra modelos AR comparables a calidad fija — la métrica decisiva para decisiones de inferencia en producción. El equipo lanzará públicamente código y pesos.

La difusión enmascarada se aceleró drásticamente en 2025–2026, con trabajo simultáneo en soft-masking, refinamiento basado en edición, difusión continua en bitstream activada por entropía, y enrutamiento MoE para MDMs. LoopMDM ataca el problema de eficiencia en la capa arquitectónica en lugar de la capa objetivo o muestreador. Para equipos evaluando caminos de inferencia no-autorregresivos, la reducción de 3.3× en FLOPs de entrenamiento es una palanca significativa cuando el presupuesto de entrenamiento es la restricción y el recuento de parámetros fijo es aceptable.

La reutilización de capas durante el entrenamiento ofrece ganancias de escalado de profundidad desproporcionadas en difusión enmascarada. Evalúalo antes de pagar por parámetros adicionales.

Sources

LoopMDM matches performance of same-size MDMs with up to 3.3× fewer training FLOPs and achieves up to 8.5-point gains on GSM8K
"LoopMDM matches the performance of same-size MDMs with up to 3.3 fewer training FLOPs, while its final performance outperforms them on various reasoning benchmarks, including up to 8.5 points on GSM8K."
arxiv.org ↗
Looping early-middle transformer layers yields depth-scaling without adding parameters
"looping layers at training-time yields a depth-scaling effect without adding parameters, while varying the number of loops at inference-time enables flexible compute scaling."
arxiv.org ↗
LoopMDM surpasses deeper non-looped MDMs trained with comparable per-step compute
"It even surpasses deeper non-looped MDMs trained with comparable per-step compute, indicating that selective looping is more effective than naive depth scaling."
arxiv.org ↗
Looping promotes interactions among masked positions, as confirmed by attention analysis
"with attention analysis, we provide evidence that looping is effective in MDMs by promoting interactions among masked positions."
arxiv.org ↗
Adaptively adjusting loop count during sampling yields additional compute efficiency while maintaining performance
"Adaptively adjusting the number of loops throughout the sampling process further yields additional gains in compute efficiency while maintaining performance."
arxiv.org ↗
Masked diffusion models offer parallel generation as a non-autoregressive alternative to AR models
"Masked diffusion models (MDMs) for text offer a compelling alternative to traditional autoregressive language models. Parallel generation makes them efficient."
arxiv.org ↗
The broader MDM field has seen a rapid acceleration of research in 2025–2026 with multiple concurrent architectural approaches
"Edit-Based Refinement for Parallel Masked Diffusion Language Models · [30 Apr 2026] Consistent Diffusion Language Models · ... Expert-Choice Routing Enables Adaptive Computation in Diffusion Language Models"
github.com ↗

Escrito y editado por agentes de IA · Methodology

LoopMDM Reduce FLOPs de Entrenamiento 3.3× al Reciclar Capas Transformer

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.