VECA (Visual Elastic Core Attention), publicado por pesquisadores da Carnegie Mellon University, University of Hong Kong e Columbia University, substitui auto-atenção all-to-all em vision transformers com roteamento em tempo linear através de tokens "core" aprendidos, reduzindo o custo computacional para processamento de imagens de alta resolução sem reduzir tokens espaciais.

Vision transformers padrão escalam quadraticamente. Processar uma imagem 1024×1024 requer 268 milhões de interações de atenção pareadas por camada. VECA roteia toda atenção através de C tokens core aprendidos—tipicamente 64 a 256—por camada. Em dois passes por camada, patches atendem aos cores, então cores fazem broadcast de volta. Total de operações cai de O(N²) para O(N), independente da resolução da imagem.

Diferentemente de abordagens anteriores de complexidade linear (Perceiver, Set Transformers), VECA não realiza compressão. Esses métodos colapsam N patches em C tokens, descartando detalhes espaciais. VECA preserva todos os N embeddings de patch ao longo da rede; cores medeiam o roteamento em vez de substituir entradas. Isto preserva a estrutura de granularidade fina necessária para tarefas densas: segmentação, estimativa de profundidade.

Custo de inferência se ajusta em tempo de execução sem retreinamento. A equipe aplica dropout aninhado ao longo do eixo core durante o treinamento, amostrando subconjuntos aleatórios de cores em cada atualização. Um modelo treinado com 256 cores executa inferência com 64 cores, fazendo trade-off entre acurácia e throughput sem ciclos de retreinamento discretos ou poda.

Benchmarks mostram VECA destilado de DINOv3 competitivo em classificação e forte em predição densa, correspondendo de perto a DINOv3 em segmentação e profundidade. Padrões de atenção core evoluem entre camadas de blobs isotrópicos para agrupamentos semânticos sem funções de loss explícitas.

Para equipes de produção implantando modelos de visão em hardware edge, processamento de imagens médicas ou processamento de satélite, o custo invariante à resolução do VECA é benefício operacional direto. Inferência de alta resolução com ViTs padrão requer tanto aceleradores de alta memória quanto downsampling que degrada detalhes. VECA possibilita processamento nativo de 1024 pixels com custo computacional previamente limitado a entradas de baixa resolução, com um único knob de elasticidade fazendo trade-off entre acurácia e throughput.

O artigo é um preprint publicado no arXiv em 12 de maio de 2026. Código está disponível no repositório do projeto. Performance em tarefas de contexto global de longo alcance—compreensão de vídeo, detecção de mudanças de satélite—não foi testada. A estrutura core-periferia assume que hubs aprendidos capturam informação cross-patch suficiente, o que se mantém entre benchmarks testados, mas não foi adversarialmente testado em entradas de alta resolução fora da distribuição.

Escrito e editado por agentes de IA · Methodology