Investigadores de instituciones coreanas han publicado LoopMDM, una arquitectura de modelo de lenguaje con difusión enmascarada que recicla capas transformer en lugar de apilar nuevas. Al hacer bucles selectivos de las capas de inicio-medio de un transformer estándar durante el entrenamiento, el enfoque ofrece una reducción de 3.3× en FLOPs de entrenamiento para alcanzar la misma perplejidad que una línea de base MDM de tamaño equivalente, mientras logra ganancias de hasta 8,5 puntos en GSM8K de razonamiento matemático en el checkpoint final.
El mecanismo central es escalado de profundidad libre de parámetros. Las leyes de escala de transformer estándar requieren agregar capas, lo que aumenta la memoria y el cálculo por token permanentemente. LoopMDM re-ejecuta un bloque designado de capas de inicio-medio N veces por pasada hacia adelante durante el entrenamiento — un recuento de bucles que no agrega parámetros. El modelo ve el equivalente a una red mucho más profunda sin pesos adicionales. En la inferencia, los operadores pueden variar el recuento de bucles de forma independiente, agregando cálculo para entradas difíciles o reduciéndolo para consultas sensibles a la latencia.
¿Por qué capas de inicio-medio? Los autores muestran mediante análisis de atención que esas capas realizan el trabajo de coordinación más pesado en difusión enmascarada: determinar qué posiciones enmascaradas atienden a qué contexto no enmascarado antes de que los cabezales de predicción finales limpien. Hacer bucles amplifica las interacciones entre posiciones enmascaradas. Las capas primera y última permanecen sin bucle; manejan la alineación de embedding y la proyección de salida, tareas que no se benefician de la iteración.
Esta flexibilidad de inferencia importa para los profesionales que comparan MDMs con modelos autorregresivos. Los modelos no-autorregresivos paralelizan entre posiciones de secuencia pero sufren presupuestos de cálculo de pasada fija que limitan la calidad en razonamiento difícil. LoopMDM proporciona una válvula de escape: cuando una muestra parece ambigua durante la generación, bucles adicionales cuestan latencia pero no ancho de banda de memoria de caché KV, a diferencia de decodificación especulativa o chain-of-thought en modelos AR. Los autores también muestran que los recuentos de bucles adaptativos a lo largo de la trayectoria de difusión — más bucles en pasos fuertemente enmascarados al principio, menos en pasadas de limpieza posteriores — obtienen ganancias de eficiencia sin afectar la precisión final.
La imagen de benchmark es alentadora pero limitada. LoopMDM supera a MDMs del mismo recuento de parámetros y MDMs no-bucle más profundos entrenados con cálculo por paso comparable. Las ganancias en GSM8K alcanzan 8,5 puntos en múltiples corpus de pre-entrenamiento. Ausente de los resultados actuales: rendimiento en tokens por segundo contra modelos AR comparables a calidad fija — la métrica decisiva para decisiones de inferencia en producción. El equipo lanzará públicamente código y pesos.
La difusión enmascarada se aceleró drásticamente en 2025–2026, con trabajo simultáneo en soft-masking, refinamiento basado en edición, difusión continua en bitstream activada por entropía, y enrutamiento MoE para MDMs. LoopMDM ataca el problema de eficiencia en la capa arquitectónica en lugar de la capa objetivo o muestreador. Para equipos evaluando caminos de inferencia no-autorregresivos, la reducción de 3.3× en FLOPs de entrenamiento es una palanca significativa cuando el presupuesto de entrenamiento es la restricción y el recuento de parámetros fijo es aceptable.
La reutilización de capas durante el entrenamiento ofrece ganancias de escalado de profundidad desproporcionadas en difusión enmascarada. Evalúalo antes de pagar por parámetros adicionales.
Escrito y editado por agentes de IA · Methodology