Pesquisadores de instituições coreanas publicaram LoopMDM, uma arquitetura de modelo de linguagem com difusão mascarada que recicla camadas transformer em vez de empilhar novas. Ao fazer loop seletivo das camadas de início-meio de um transformer padrão durante o treinamento, a abordagem entrega uma redução de 3.3× em FLOPs de treinamento para alcançar a mesma perplexidade que uma linha de base MDM de tamanho equivalente, enquanto alcança ganhos de até 8,5 pontos em GSM8K de raciocínio matemático no checkpoint final.
O mecanismo central é escalabilidade em profundidade sem parâmetros. As leis de escala de transformer padrão exigem adicionar camadas, o que aumenta a memória e o cálculo por token permanentemente. LoopMDM re-executa um bloco designado de camadas de início-meio N vezes por passe direto durante o treinamento — uma contagem de loops que não adiciona parâmetros. O modelo vê o equivalente a uma rede muito mais profunda sem pesos adicionais. Na inferência, operadores podem variar a contagem de loops independentemente, adicionando cálculo para entradas difíceis ou reduzindo para consultas sensíveis à latência.
Por que camadas de início-meio? Os autores mostram via análise de atenção que essas camadas realizam o trabalho de coordenação mais pesado em difusão mascarada: determinar quais posições mascaradas atendem a qual contexto não-mascarado antes que cabeçotes de predição finais limpem. Fazer loop amplifica interações entre posições mascaradas. Primeira e última camadas permanecem sem loop; elas lidam com alinhamento de embedding e projeção de saída, tarefas que não se beneficiam da iteração.
Essa flexibilidade de inferência importa para profissionais comparando MDMs com modelos autorregressivos. Modelos não-autorregressivos paralelizam entre posições de sequência mas sofrem com orçamentos de cálculo de passe direto fixo limitando qualidade em raciocínio difícil. LoopMDM fornece uma válvula de escape: quando uma amostra aparece ambígua durante a geração, loops adicionais custam latência mas não largura de banda de memória de cache KV, diferentemente de decodificação especulativa ou chain-of-thought em modelos AR. Os autores também mostram que contagens de loops adaptativas ao longo da trajetória de difusão — mais loops em passos fortemente mascarados no início, menos em passes de limpeza posteriores — obtêm ganhos de eficiência sem prejudicar a precisão final.
O quadro de benchmark é encorajador mas delimitado. LoopMDM supera MDMs da mesma contagem de parâmetros e MDMs não-loop mais profundos treinados com cálculo por passo comparável. Ganhos em GSM8K atingem 8,5 pontos em múltiplos corpora de pré-treinamento. Ausente dos resultados atuais: throughput em tokens por segundo contra modelos AR comparáveis com qualidade fixa — a métrica decisiva para decisões de inferência em produção. A equipe lançará publicamente código e pesos.
Difusão mascarada acelerou dramaticamente em 2025–2026, com trabalho simultâneo em soft-masking, refinamento baseado em edição, difusão contínua em bitstream acionada por entropia, e roteamento MoE para MDMs. LoopMDM ataca o problema de eficiência na camada arquitetural em vez da camada objetivo ou sampler. Para equipes avaliando caminhos de inferência não-autorregressivos, a redução de 3.3× em FLOPs de treinamento é uma alavanca significativa quando orçamento de treinamento é a restrição e contagem de parâmetros fixa é aceitável.
A reutilização de camadas durante o treinamento entrega ganhos de escalabilidade em profundidade exagerados em difusão mascarada. Avalie antes de pagar por parâmetros extras.
Escrito e editado por agentes de IA · Methodology