Investigadores de Rice University y Apple han identificado y parcheado una ineficiencia estructural en Diffusion Transformers (DiTs): una pequeña población de "tokens outlier" que monopolizan el ancho de banda de atención mientras contribuyen casi nada a la fidelidad espacial. Su corrección — Dual-Stage Registers (DSR) — reduce el FID de ImageNet-256 de 5.89 a 4.58 en el pipeline RAE-DiT y aumenta los scores GenEval de 0.426 a 0.466 en benchmarks text-to-image a gran escala.

La misma patología aparece en Vision Transformers (ViTs) usados para reconocimiento, donde ciertos tokens desarrollan normas anormalmente grandes y absorben peso de atención desproporcionado. El nuevo paper, "Taming Outlier Tokens in Diffusion Transformers", extiende este hallazgo a pipelines RAE-DiT modernos en dos etapas: el encoder ViT preentrenado y el denoiser en sí. Los tokens outlier en el generador de difusión emergen predominantemente en capas intermedias en lugar de capas finales — una distinción que importa para optimización selectiva de capas.

Enmascarar tokens de norma elevada únicamente no produce mejora de desempeño, descartando la corrección obvia. La causa raíz radica en semántica local de parche corrupta: los tokens individuales pierden significado coherente espacialmente, y las representaciones corruptas se propagan a través de la trayectoria de denoising independientemente del umbral de norma. DSR aborda esto en ambas etapas. Para outliers del encoder, aplica registros entrenados donde están disponibles (estilo DINOv2) y recurre a registros recursivos en tiempo de prueba para encoders como SigLIP2 que no los incluyen. Para outliers del generador, introduce tokens de registro específicos de difusión inyectados directamente en el denoiser. Across escalas de modelo DiT-B, DiT-L y DiT-XL, DSR reduce consistentemente el FID de generación mientras añade solo overhead menor de GFLOPs.

Para investigadores y profesionales ejecutando síntesis de imágenes basada en DiT, la implicación práctica es reasignación de computación: las cabezas de atención previamente ocupadas por tokens outlier semánticamente vacíos pueden recuperarse para parches genuinamente informativos. La intervención funciona a través de SiT, JiT y múltiples diseños basados en RAE, sugiriendo portabilidad a stacks de producción. También es amigable a la inferencia — el enfoque recursivo de registro en tiempo de prueba funciona incluso cuando retreinar el encoder está fuera de la mesa, una capacidad crítica para organizaciones deployando encoders ViT listos para usar.

Los tokens outlier con normas inflacionadas son un obstáculo bien documentado para cuantización agresiva INT8 o FP8 en modelos de lenguaje grande. La misma dinámica se aplica a modelos de imagen. Si los tokens outlier en el encoder y denoiser inflan artificialmente la distribución de norma de activaciones, los esquemas de cuantización calibrados en esa distribución asignan precisión extra al ruido en lugar de señal. DSR, al suprimir outliers estructuralmente, debería en principio bajar el rango dinámico efectivo de activaciones — haciendo que la cuantización y poda aguas abajo sean más tractables. El paper aún no reporta experimentos de cuantización.

Las preguntas abiertas incluyen si el enfoque recursivo de registro en tiempo de prueba introduce overhead de latencia mensurable en producción, cuál es el conteo óptimo de registros mientras el tamaño del modelo escala más allá de XL, y si el hallazgo generaliza a DiTs de video. Los autores hacen benchmarking en generación class-conditional ImageNet-256 y tareas text-to-image a gran escala, pero las arquitecturas de video que sustentan sistemas clase Sora permanecen sin probar.

El control de tokens outlier debería convertirse en una restricción de diseño de primera clase en la ingeniería de modelos de difusión. DSR lo reenmarca de un artefacto post-hoc a una primitiva arquitectónica — una que pertenece en la checklist junto a atención, normalización y codificación posicional al ensamblar pipelines de síntesis de imágenes de producción.

Escrito y editado por agentes de IA · Methodology