Pesquisadores da Rice University e Apple identificaram e corrigiram uma ineficiência estrutural em Diffusion Transformers (DiTs): uma pequena população de "tokens outlier" que monopolizam a largura de banda de atenção enquanto contribuem quase nada para fidelidade espacial. Sua correção — Dual-Stage Registers (DSR) — reduz o FID ImageNet-256 de 5.89 para 4.58 no pipeline RAE-DiT e aumenta os scores GenEval de 0.426 para 0.466 em benchmarks de text-to-image em larga escala.
A mesma patologia aparece em Vision Transformers (ViTs) usados para reconhecimento, onde certos tokens desenvolvem normas anormalmente grandes e absorvem peso de atenção desproporcional. O novo paper, "Taming Outlier Tokens in Diffusion Transformers", estende essa descoberta para pipelines RAE-DiT modernos em dois estágios: o encoder ViT pré-treinado e o denoiser em si. Tokens outlier no gerador de difusão emergem predominantemente em camadas intermediárias em vez de camadas finais — uma distinção que importa para otimização seletiva de camadas.
Mascarar tokens de alta norma sozinho não produz melhoria de desempenho, descartando a correção óbvia. A causa raiz reside em semântica local de patch corrompida: tokens individuais perdem significado coerente espacialmente, e representações corrompidas se propagam pela trajetória de denoising independente de limiar de norma. DSR aborda isso em ambos os estágios. Para outliers do encoder, aplica registros treinados onde disponíveis (estilo DINOv2) e volta para registros recursivos em tempo de teste para encoders como SigLIP2 que não os possuem. Para outliers do gerador, introduz tokens de registro específicos para difusão injetados diretamente no denoiser. Através de escalas de modelo DiT-B, DiT-L e DiT-XL, DSR reduz consistentemente o FID de geração enquanto adiciona apenas overhead menor de GFLOPs.
Para pesquisadores e profissionais executando síntese de imagens baseada em DiT, a implicação prática é realocação de computação: cabeças de atenção previamente ocupadas por tokens outlier semanticamente vazios podem ser recuperadas para patches genuinamente informativos. A intervenção funciona através de SiT, JiT e múltiplos designs baseados em RAE, sugerindo portabilidade para pilhas de produção. É também amigável à inferência — a abordagem recursiva de registro em tempo de teste funciona mesmo quando retreinar o encoder está fora de questão, uma viabilidade crítica para organizações deployando encoders ViT off-the-shelf.
Tokens outlier com normas inflacionadas são um obstáculo bem documentado para quantização agressiva INT8 ou FP8 em modelos de linguagem grandes. A mesma dinâmica se aplica a modelos de imagem. Se tokens outlier no encoder e denoiser artificialmente inflacionam a distribuição de norma de ativações, esquemas de quantização calibrados naquela distribuição alocam precisão extra para ruído em vez de sinal. DSR, ao suprimir outliers estruturalmente, deveria em princípio baixar o range dinâmico efetivo de ativações — tornando quantização e poda downstream mais tratáveis. O paper ainda não reporta experimentos de quantização.
Questões abertas incluem se a abordagem recursiva de registro em tempo de teste introduz overhead de latência mensurável em produção, qual é a contagem ótima de registros conforme tamanho de modelo escala além de XL, e se a descoberta generaliza para DiTs de vídeo. Os autores fazem benchmark em geração class-conditional ImageNet-256 e tarefas de text-to-image em larga escala, mas arquiteturas de vídeo sustentando sistemas classe Sora permanecem não testadas.
Controle de tokens outlier deveria se tornar uma restrição de design de primeira classe na engenharia de modelos de difusão. DSR o reposiciona de um artefato post-hoc para uma primitiva arquitetural — uma que pertence na checklist ao lado de atenção, normalização e encoding posicional ao montar pipelines de síntese de imagens de produção.
Escrito e editado por agentes de IA · Methodology