VECA Reduz Custo de Inferência em Vision Transformers para Tempo Linear

Pesquisadores questionam a necessidade de auto-atenção all-to-all em vision transformers, introduzindo Elastic Attention Cores que reduzem o escalonamento computacional quadrático. A otimização possibilita modelos de visão de alta resolução com custo de inferência significativamente menor—crítico para implantação em IA embarcada e edge.

VECA (Visual Elastic Core Attention), publicado por pesquisadores da Carnegie Mellon University, University of Hong Kong e Columbia University, substitui auto-atenção all-to-all em vision transformers com roteamento em tempo linear através de tokens "core" aprendidos, reduzindo o custo computacional para processamento de imagens de alta resolução sem reduzir tokens espaciais.

Vision transformers padrão escalam quadraticamente. Processar uma imagem 1024×1024 requer 268 milhões de interações de atenção pareadas por camada. VECA roteia toda atenção através de C tokens core aprendidos—tipicamente 64 a 256—por camada. Em dois passes por camada, patches atendem aos cores, então cores fazem broadcast de volta. Total de operações cai de O(N²) para O(N), independente da resolução da imagem.

Diferentemente de abordagens anteriores de complexidade linear (Perceiver, Set Transformers), VECA não realiza compressão. Esses métodos colapsam N patches em C tokens, descartando detalhes espaciais. VECA preserva todos os N embeddings de patch ao longo da rede; cores medeiam o roteamento em vez de substituir entradas. Isto preserva a estrutura de granularidade fina necessária para tarefas densas: segmentação, estimativa de profundidade.

Custo de inferência se ajusta em tempo de execução sem retreinamento. A equipe aplica dropout aninhado ao longo do eixo core durante o treinamento, amostrando subconjuntos aleatórios de cores em cada atualização. Um modelo treinado com 256 cores executa inferência com 64 cores, fazendo trade-off entre acurácia e throughput sem ciclos de retreinamento discretos ou poda.

Benchmarks mostram VECA destilado de DINOv3 competitivo em classificação e forte em predição densa, correspondendo de perto a DINOv3 em segmentação e profundidade. Padrões de atenção core evoluem entre camadas de blobs isotrópicos para agrupamentos semânticos sem funções de loss explícitas.

Para equipes de produção implantando modelos de visão em hardware edge, processamento de imagens médicas ou processamento de satélite, o custo invariante à resolução do VECA é benefício operacional direto. Inferência de alta resolução com ViTs padrão requer tanto aceleradores de alta memória quanto downsampling que degrada detalhes. VECA possibilita processamento nativo de 1024 pixels com custo computacional previamente limitado a entradas de baixa resolução, com um único knob de elasticidade fazendo trade-off entre acurácia e throughput.

O artigo é um preprint publicado no arXiv em 12 de maio de 2026. Código está disponível no repositório do projeto. Performance em tarefas de contexto global de longo alcance—compreensão de vídeo, detecção de mudanças de satélite—não foi testada. A estrutura core-periferia assume que hubs aprendidos capturam informação cross-patch suficiente, o que se mantém entre benchmarks testados, mas não foi adversarialmente testado em entradas de alta resolução fora da distribuição.

Sources

VECA reduces attention complexity from O(N²) to O(N) for a fixed number of core tokens C
"this yields linear complexity O(N) for predetermined C, which bypasses quadratic scaling"
arxiv.org ↗
VECA attention block requires only (2NC + C²) comparisons versus N² for standard self-attention
"VECA constructs a core-periphery matrix with CC core tokens that form a clique, requiring only 2NC+C² comparisons"
arxiv.org ↗
At 1024×1024 resolution, standard ViT attention must process 16,384 patches — roughly 268 million pairwise interactions
"At 1024×1024 resolution, you're computing attention over 16,384 patches—that's 268 million pairwise interactions"
alanhou.org ↗
VECA core token count is typically 64 to 256
"VECA introduces a small set of C learned "core" tokens (typically 64-256) that act as a communication hub"
alanhou.org ↗
VECA maintains and iteratively updates all N patch tokens, avoiding a C-way bottleneck
"VECA maintains and iteratively updates the full set of N input tokens, avoiding a small C-way bottleneck"
arxiv.org ↗
Nested training on the core axis enables elastic inference; a model trained with 256 cores can run with 64 for faster throughput
"A model trained with 256 cores can run with 64 cores for faster inference, with graceful performance degradation"
alanhou.org ↗
VECA is distilled from a DINOv3 foundation model teacher
"we supervise our model using a DINOv3 teacher"
arxiv.org ↗
VECA closely approaches DINOv3 on segmentation and depth estimation
"VECA remains competitive on classification and is especially strong on dense prediction, closely approaching DINOv3 on segmentation and depth estimation"
arxiv.org ↗
Core attention maps evolve from isotropic to semantically organized groupings without any explicit loss constraint
"Core attention maps start off isotropic (spherical), and become increasingly semantic"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

VECA Reduz Custo de Inferência em Vision Transformers para Tempo Linear

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.