Investigadores de Rice y Apple reducen FID 22% en generación de imágenes con corrección de tokens

Investigadores de Rice University y Apple han identificado y parcheado una ineficiencia estructural en Diffusion Transformers (DiTs): una pequeña población de "tokens outlier" que monopolizan el ancho de banda de atención mientras contribuyen casi nada a la fidelidad espacial. Su corrección — Dual-Stage Registers (DSR) — reduce el FID de ImageNet-256 de 5.89 a 4.58 en el pipeline RAE-DiT y aumenta los scores GenEval de 0.426 a 0.466 en benchmarks text-to-image a gran escala.

La misma patología aparece en Vision Transformers (ViTs) usados para reconocimiento, donde ciertos tokens desarrollan normas anormalmente grandes y absorben peso de atención desproporcionado. El nuevo paper, "Taming Outlier Tokens in Diffusion Transformers", extiende este hallazgo a pipelines RAE-DiT modernos en dos etapas: el encoder ViT preentrenado y el denoiser en sí. Los tokens outlier en el generador de difusión emergen predominantemente en capas intermedias en lugar de capas finales — una distinción que importa para optimización selectiva de capas.

Enmascarar tokens de norma elevada únicamente no produce mejora de desempeño, descartando la corrección obvia. La causa raíz radica en semántica local de parche corrupta: los tokens individuales pierden significado coherente espacialmente, y las representaciones corruptas se propagan a través de la trayectoria de denoising independientemente del umbral de norma. DSR aborda esto en ambas etapas. Para outliers del encoder, aplica registros entrenados donde están disponibles (estilo DINOv2) y recurre a registros recursivos en tiempo de prueba para encoders como SigLIP2 que no los incluyen. Para outliers del generador, introduce tokens de registro específicos de difusión inyectados directamente en el denoiser. Across escalas de modelo DiT-B, DiT-L y DiT-XL, DSR reduce consistentemente el FID de generación mientras añade solo overhead menor de GFLOPs.

Para investigadores y profesionales ejecutando síntesis de imágenes basada en DiT, la implicación práctica es reasignación de computación: las cabezas de atención previamente ocupadas por tokens outlier semánticamente vacíos pueden recuperarse para parches genuinamente informativos. La intervención funciona a través de SiT, JiT y múltiples diseños basados en RAE, sugiriendo portabilidad a stacks de producción. También es amigable a la inferencia — el enfoque recursivo de registro en tiempo de prueba funciona incluso cuando retreinar el encoder está fuera de la mesa, una capacidad crítica para organizaciones deployando encoders ViT listos para usar.

Los tokens outlier con normas inflacionadas son un obstáculo bien documentado para cuantización agresiva INT8 o FP8 en modelos de lenguaje grande. La misma dinámica se aplica a modelos de imagen. Si los tokens outlier en el encoder y denoiser inflan artificialmente la distribución de norma de activaciones, los esquemas de cuantización calibrados en esa distribución asignan precisión extra al ruido en lugar de señal. DSR, al suprimir outliers estructuralmente, debería en principio bajar el rango dinámico efectivo de activaciones — haciendo que la cuantización y poda aguas abajo sean más tractables. El paper aún no reporta experimentos de cuantización.

Las preguntas abiertas incluyen si el enfoque recursivo de registro en tiempo de prueba introduce overhead de latencia mensurable en producción, cuál es el conteo óptimo de registros mientras el tamaño del modelo escala más allá de XL, y si el hallazgo generaliza a DiTs de video. Los autores hacen benchmarking en generación class-conditional ImageNet-256 y tareas text-to-image a gran escala, pero las arquitecturas de video que sustentan sistemas clase Sora permanecen sin probar.

El control de tokens outlier debería convertirse en una restricción de diseño de primera clase en la ingeniería de modelos de difusión. DSR lo reenmarca de un artefacto post-hoc a una primitiva arquitectónica — una que pertenece en la checklist junto a atención, normalización y codificación posicional al ensamblar pipelines de síntesis de imágenes de producción.

Sources

DSR reduces ImageNet-256 FID from 5.89 to 4.58 on RAE-DiT with SigLIP2-B
"for RAE-DiT with SigLIP2-B, it reduces ImageNet-256 FID from 5.89 to 4.58"
arxiv.org ↗
DSR improves GenEval from 0.426 to 0.466 on large-scale text-to-image task
"improves GenEval from 0.426 to 0.466 on a large-scale text-to-image task"
arxiv.org ↗
Outlier tokens appear in both the encoder and denoiser of modern RAE-DiT pipelines
"We show that this phenomenon appears in both the encoder and denoiser of modern Representation Autoencoder (RAE)-DiT pipelines: pretrained ViT encoders can produce outlier representations, and DiTs themselves can develop internal outlier tokens, especially in intermediate layers."
arxiv.org ↗
Masking high-norm tokens does not improve performance; the problem is corrupted local patch semantics
"simply masking high-norm tokens does not improve performance, indicating that the problem is not only caused by a few extreme values, but is more closely related to corrupted local patch semantics"
arxiv.org ↗
DSR uses trained registers when available, recursive test-time registers for encoders like SigLIP2, and diffusion registers for the denoiser
"trained registers when available, recursive test-time registers otherwise, and diffusion registers for the denoiser"
arxiv.org ↗
DSR consistently improves gFID across DiT-B, DiT-L, and DiT-XL model scales with only minor GFLOPs increase
"DSR consistently improves gFID across all parameter scales, while introducing only a minor increase in GFLOPs"
arxiv.org ↗
The intervention is validated across SiT, JiT, and multiple RAE-based diffusion architectures
"we achieve consistent gains across a variety of diffusion architectures, including SiT [17], JiT [16], and RAE-based [39, 31] designs"
arxiv.org ↗
Research is a collaboration between Rice University and Apple, published May 2026
"Xiaoyu Wu1* Yifei Wang1* Tsu-Jui Fu2 Liang-Chieh Chen2 Zhe Gan2 Chen Wei1 1Rice University 2Apple"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Investigadores de Rice y Apple reducen FID 22% en generación de imágenes con corrección de tokens

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.