VECA Reduce el Costo de Inferencia en Vision Transformers a Tiempo Lineal

Investigadores cuestionan la necesidad de auto-atención all-to-all en vision transformers, introduciendo Elastic Attention Cores que reducen el escalonamiento computacional cuadrático. La optimización permite modelos de visión de alta resolución con costo de inferencia significativamente menor—crítico para despliegue en IA embarcada y edge.

VECA (Visual Elastic Core Attention), publicado por investigadores de Carnegie Mellon University, University of Hong Kong y Columbia University, reemplaza auto-atención all-to-all en vision transformers con enrutamiento en tiempo lineal a través de tokens "core" aprendidos, reduciendo el costo computacional para procesamiento de imágenes de alta resolución sin reducir tokens espaciales.

Los vision transformers estándar escalan cuadráticamente. Procesar una imagen 1024×1024 requiere 268 millones de interacciones de atención pareadas por capa. VECA enruta toda atención a través de C tokens core aprendidos—típicamente 64 a 256—por capa. En dos pasadas por capa, los parches atienden a los cores, luego los cores hacen broadcast de vuelta. El total de operaciones cae de O(N²) a O(N), independiente de la resolución de la imagen.

A diferencia de enfoques anteriores de complejidad lineal (Perceiver, Set Transformers), VECA no realiza compresión. Esos métodos colapsan N parches en C tokens, descartando detalles espaciales. VECA preserva todos los N embeddings de parche a lo largo de la red; los cores median el enrutamiento en lugar de reemplazar entradas. Esto preserva la estructura de granularidad fina necesaria para tareas densas: segmentación, estimación de profundidad.

El costo de inferencia se ajusta en tiempo de ejecución sin reentrenamiento. El equipo aplica dropout anidado a lo largo del eje core durante el entrenamiento, muestreando subconjuntos aleatorios de cores en cada actualización. Un modelo entrenado con 256 cores ejecuta inferencia con 64 cores, intercambiando precisión por throughput sin ciclos de reentrenamiento discretos o poda.

Los benchmarks muestran VECA destilado de DINOv3 competitivo en clasificación y fuerte en predicción densa, correspondiendo estrechamente con DINOv3 en segmentación y profundidad. Los patrones de atención core evolucionan entre capas de blobs isotrópicos a agrupamientos semánticos sin funciones de pérdida explícitas.

Para equipos de producción desplegando modelos de visión en hardware edge, procesamiento de imágenes médicas o procesamiento de satélites, el costo invariante a la resolución de VECA es beneficio operacional directo. La inferencia de alta resolución con ViTs estándar requiere aceleradores de alta memoria o downsampling que degrada detalles. VECA permite procesamiento nativo de 1024 píxeles con costo computacional previamente limitado a entradas de baja resolución, con una única perilla de elasticidad intercambiando precisión por throughput.

El artículo es un preprint publicado en arXiv el 12 de mayo de 2026. El código está disponible en el repositorio del proyecto. El desempeño en tareas de contexto global de largo alcance—comprensión de video, detección de cambios de satélites—no ha sido probado. La estructura core-periferia asume que los hubs aprendidos capturan información cross-parche suficiente, lo que se mantiene entre los benchmarks probados pero no ha sido adversarialmente probado en entradas de alta resolución fuera de distribución.

Sources

VECA reduces attention complexity from O(N²) to O(N) for a fixed number of core tokens C
"this yields linear complexity O(N) for predetermined C, which bypasses quadratic scaling"
arxiv.org ↗
VECA attention block requires only (2NC + C²) comparisons versus N² for standard self-attention
"VECA constructs a core-periphery matrix with CC core tokens that form a clique, requiring only 2NC+C² comparisons"
arxiv.org ↗
At 1024×1024 resolution, standard ViT attention must process 16,384 patches — roughly 268 million pairwise interactions
"At 1024×1024 resolution, you're computing attention over 16,384 patches—that's 268 million pairwise interactions"
alanhou.org ↗
VECA core token count is typically 64 to 256
"VECA introduces a small set of C learned "core" tokens (typically 64-256) that act as a communication hub"
alanhou.org ↗
VECA maintains and iteratively updates all N patch tokens, avoiding a C-way bottleneck
"VECA maintains and iteratively updates the full set of N input tokens, avoiding a small C-way bottleneck"
arxiv.org ↗
Nested training on the core axis enables elastic inference; a model trained with 256 cores can run with 64 for faster throughput
"A model trained with 256 cores can run with 64 cores for faster inference, with graceful performance degradation"
alanhou.org ↗
VECA is distilled from a DINOv3 foundation model teacher
"we supervise our model using a DINOv3 teacher"
arxiv.org ↗
VECA closely approaches DINOv3 on segmentation and depth estimation
"VECA remains competitive on classification and is especially strong on dense prediction, closely approaching DINOv3 on segmentation and depth estimation"
arxiv.org ↗
Core attention maps evolve from isotropic to semantically organized groupings without any explicit loss constraint
"Core attention maps start off isotropic (spherical), and become increasingly semantic"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

VECA Reduce el Costo de Inferencia en Vision Transformers a Tiempo Lineal

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.