Pesquisadores de Rice e Apple reduzem FID 22% na geração de imagens com correção de tokens

Pesquisadores da Rice University e Apple identificaram e corrigiram uma ineficiência estrutural em Diffusion Transformers (DiTs): uma pequena população de "tokens outlier" que monopolizam a largura de banda de atenção enquanto contribuem quase nada para fidelidade espacial. Sua correção — Dual-Stage Registers (DSR) — reduz o FID ImageNet-256 de 5.89 para 4.58 no pipeline RAE-DiT e aumenta os scores GenEval de 0.426 para 0.466 em benchmarks de text-to-image em larga escala.

A mesma patologia aparece em Vision Transformers (ViTs) usados para reconhecimento, onde certos tokens desenvolvem normas anormalmente grandes e absorvem peso de atenção desproporcional. O novo paper, "Taming Outlier Tokens in Diffusion Transformers", estende essa descoberta para pipelines RAE-DiT modernos em dois estágios: o encoder ViT pré-treinado e o denoiser em si. Tokens outlier no gerador de difusão emergem predominantemente em camadas intermediárias em vez de camadas finais — uma distinção que importa para otimização seletiva de camadas.

Mascarar tokens de alta norma sozinho não produz melhoria de desempenho, descartando a correção óbvia. A causa raiz reside em semântica local de patch corrompida: tokens individuais perdem significado coerente espacialmente, e representações corrompidas se propagam pela trajetória de denoising independente de limiar de norma. DSR aborda isso em ambos os estágios. Para outliers do encoder, aplica registros treinados onde disponíveis (estilo DINOv2) e volta para registros recursivos em tempo de teste para encoders como SigLIP2 que não os possuem. Para outliers do gerador, introduz tokens de registro específicos para difusão injetados diretamente no denoiser. Através de escalas de modelo DiT-B, DiT-L e DiT-XL, DSR reduz consistentemente o FID de geração enquanto adiciona apenas overhead menor de GFLOPs.

Para pesquisadores e profissionais executando síntese de imagens baseada em DiT, a implicação prática é realocação de computação: cabeças de atenção previamente ocupadas por tokens outlier semanticamente vazios podem ser recuperadas para patches genuinamente informativos. A intervenção funciona através de SiT, JiT e múltiplos designs baseados em RAE, sugerindo portabilidade para pilhas de produção. É também amigável à inferência — a abordagem recursiva de registro em tempo de teste funciona mesmo quando retreinar o encoder está fora de questão, uma viabilidade crítica para organizações deployando encoders ViT off-the-shelf.

Tokens outlier com normas inflacionadas são um obstáculo bem documentado para quantização agressiva INT8 ou FP8 em modelos de linguagem grandes. A mesma dinâmica se aplica a modelos de imagem. Se tokens outlier no encoder e denoiser artificialmente inflacionam a distribuição de norma de ativações, esquemas de quantização calibrados naquela distribuição alocam precisão extra para ruído em vez de sinal. DSR, ao suprimir outliers estruturalmente, deveria em princípio baixar o range dinâmico efetivo de ativações — tornando quantização e poda downstream mais tratáveis. O paper ainda não reporta experimentos de quantização.

Questões abertas incluem se a abordagem recursiva de registro em tempo de teste introduz overhead de latência mensurável em produção, qual é a contagem ótima de registros conforme tamanho de modelo escala além de XL, e se a descoberta generaliza para DiTs de vídeo. Os autores fazem benchmark em geração class-conditional ImageNet-256 e tarefas de text-to-image em larga escala, mas arquiteturas de vídeo sustentando sistemas classe Sora permanecem não testadas.

Controle de tokens outlier deveria se tornar uma restrição de design de primeira classe na engenharia de modelos de difusão. DSR o reposiciona de um artefato post-hoc para uma primitiva arquitetural — uma que pertence na checklist ao lado de atenção, normalização e encoding posicional ao montar pipelines de síntese de imagens de produção.

Sources

DSR reduces ImageNet-256 FID from 5.89 to 4.58 on RAE-DiT with SigLIP2-B
"for RAE-DiT with SigLIP2-B, it reduces ImageNet-256 FID from 5.89 to 4.58"
arxiv.org ↗
DSR improves GenEval from 0.426 to 0.466 on large-scale text-to-image task
"improves GenEval from 0.426 to 0.466 on a large-scale text-to-image task"
arxiv.org ↗
Outlier tokens appear in both the encoder and denoiser of modern RAE-DiT pipelines
"We show that this phenomenon appears in both the encoder and denoiser of modern Representation Autoencoder (RAE)-DiT pipelines: pretrained ViT encoders can produce outlier representations, and DiTs themselves can develop internal outlier tokens, especially in intermediate layers."
arxiv.org ↗
Masking high-norm tokens does not improve performance; the problem is corrupted local patch semantics
"simply masking high-norm tokens does not improve performance, indicating that the problem is not only caused by a few extreme values, but is more closely related to corrupted local patch semantics"
arxiv.org ↗
DSR uses trained registers when available, recursive test-time registers for encoders like SigLIP2, and diffusion registers for the denoiser
"trained registers when available, recursive test-time registers otherwise, and diffusion registers for the denoiser"
arxiv.org ↗
DSR consistently improves gFID across DiT-B, DiT-L, and DiT-XL model scales with only minor GFLOPs increase
"DSR consistently improves gFID across all parameter scales, while introducing only a minor increase in GFLOPs"
arxiv.org ↗
The intervention is validated across SiT, JiT, and multiple RAE-based diffusion architectures
"we achieve consistent gains across a variety of diffusion architectures, including SiT [17], JiT [16], and RAE-based [39, 31] designs"
arxiv.org ↗
Research is a collaboration between Rice University and Apple, published May 2026
"Xiaoyu Wu1* Yifei Wang1* Tsu-Jui Fu2 Liang-Chieh Chen2 Zhe Gan2 Chen Wei1 1Rice University 2Apple"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Pesquisadores de Rice e Apple reduzem FID 22% na geração de imagens com correção de tokens

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.