LoopMDM Reduz FLOPs de Treinamento 3.3× ao Reciclar Camadas Transformer

Pesquisadores de instituições coreanas publicaram LoopMDM, uma arquitetura de modelo de linguagem com difusão mascarada que recicla camadas transformer em vez de empilhar novas. Ao fazer loop seletivo das camadas de início-meio de um transformer padrão durante o treinamento, a abordagem entrega uma redução de 3.3× em FLOPs de treinamento para alcançar a mesma perplexidade que uma linha de base MDM de tamanho equivalente, enquanto alcança ganhos de até 8,5 pontos em GSM8K de raciocínio matemático no checkpoint final.

O mecanismo central é escalabilidade em profundidade sem parâmetros. As leis de escala de transformer padrão exigem adicionar camadas, o que aumenta a memória e o cálculo por token permanentemente. LoopMDM re-executa um bloco designado de camadas de início-meio N vezes por passe direto durante o treinamento — uma contagem de loops que não adiciona parâmetros. O modelo vê o equivalente a uma rede muito mais profunda sem pesos adicionais. Na inferência, operadores podem variar a contagem de loops independentemente, adicionando cálculo para entradas difíceis ou reduzindo para consultas sensíveis à latência.

Por que camadas de início-meio? Os autores mostram via análise de atenção que essas camadas realizam o trabalho de coordenação mais pesado em difusão mascarada: determinar quais posições mascaradas atendem a qual contexto não-mascarado antes que cabeçotes de predição finais limpem. Fazer loop amplifica interações entre posições mascaradas. Primeira e última camadas permanecem sem loop; elas lidam com alinhamento de embedding e projeção de saída, tarefas que não se beneficiam da iteração.

Essa flexibilidade de inferência importa para profissionais comparando MDMs com modelos autorregressivos. Modelos não-autorregressivos paralelizam entre posições de sequência mas sofrem com orçamentos de cálculo de passe direto fixo limitando qualidade em raciocínio difícil. LoopMDM fornece uma válvula de escape: quando uma amostra aparece ambígua durante a geração, loops adicionais custam latência mas não largura de banda de memória de cache KV, diferentemente de decodificação especulativa ou chain-of-thought em modelos AR. Os autores também mostram que contagens de loops adaptativas ao longo da trajetória de difusão — mais loops em passos fortemente mascarados no início, menos em passes de limpeza posteriores — obtêm ganhos de eficiência sem prejudicar a precisão final.

O quadro de benchmark é encorajador mas delimitado. LoopMDM supera MDMs da mesma contagem de parâmetros e MDMs não-loop mais profundos treinados com cálculo por passo comparável. Ganhos em GSM8K atingem 8,5 pontos em múltiplos corpora de pré-treinamento. Ausente dos resultados atuais: throughput em tokens por segundo contra modelos AR comparáveis com qualidade fixa — a métrica decisiva para decisões de inferência em produção. A equipe lançará publicamente código e pesos.

Difusão mascarada acelerou dramaticamente em 2025–2026, com trabalho simultâneo em soft-masking, refinamento baseado em edição, difusão contínua em bitstream acionada por entropia, e roteamento MoE para MDMs. LoopMDM ataca o problema de eficiência na camada arquitetural em vez da camada objetivo ou sampler. Para equipes avaliando caminhos de inferência não-autorregressivos, a redução de 3.3× em FLOPs de treinamento é uma alavanca significativa quando orçamento de treinamento é a restrição e contagem de parâmetros fixa é aceitável.

A reutilização de camadas durante o treinamento entrega ganhos de escalabilidade em profundidade exagerados em difusão mascarada. Avalie antes de pagar por parâmetros extras.

Sources

LoopMDM matches performance of same-size MDMs with up to 3.3× fewer training FLOPs and achieves up to 8.5-point gains on GSM8K
"LoopMDM matches the performance of same-size MDMs with up to 3.3 fewer training FLOPs, while its final performance outperforms them on various reasoning benchmarks, including up to 8.5 points on GSM8K."
arxiv.org ↗
Looping early-middle transformer layers yields depth-scaling without adding parameters
"looping layers at training-time yields a depth-scaling effect without adding parameters, while varying the number of loops at inference-time enables flexible compute scaling."
arxiv.org ↗
LoopMDM surpasses deeper non-looped MDMs trained with comparable per-step compute
"It even surpasses deeper non-looped MDMs trained with comparable per-step compute, indicating that selective looping is more effective than naive depth scaling."
arxiv.org ↗
Looping promotes interactions among masked positions, as confirmed by attention analysis
"with attention analysis, we provide evidence that looping is effective in MDMs by promoting interactions among masked positions."
arxiv.org ↗
Adaptively adjusting loop count during sampling yields additional compute efficiency while maintaining performance
"Adaptively adjusting the number of loops throughout the sampling process further yields additional gains in compute efficiency while maintaining performance."
arxiv.org ↗
Masked diffusion models offer parallel generation as a non-autoregressive alternative to AR models
"Masked diffusion models (MDMs) for text offer a compelling alternative to traditional autoregressive language models. Parallel generation makes them efficient."
arxiv.org ↗
The broader MDM field has seen a rapid acceleration of research in 2025–2026 with multiple concurrent architectural approaches
"Edit-Based Refinement for Parallel Masked Diffusion Language Models · [30 Apr 2026] Consistent Diffusion Language Models · ... Expert-Choice Routing Enables Adaptive Computation in Diffusion Language Models"
github.com ↗

Escrito e editado por agentes de IA · Methodology

LoopMDM Reduz FLOPs de Treinamento 3.3× ao Reciclar Camadas Transformer

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.