VECA (Visual Elastic Core Attention), publicado por investigadores de Carnegie Mellon University, University of Hong Kong y Columbia University, reemplaza auto-atención all-to-all en vision transformers con enrutamiento en tiempo lineal a través de tokens "core" aprendidos, reduciendo el costo computacional para procesamiento de imágenes de alta resolución sin reducir tokens espaciales.
Los vision transformers estándar escalan cuadráticamente. Procesar una imagen 1024×1024 requiere 268 millones de interacciones de atención pareadas por capa. VECA enruta toda atención a través de C tokens core aprendidos—típicamente 64 a 256—por capa. En dos pasadas por capa, los parches atienden a los cores, luego los cores hacen broadcast de vuelta. El total de operaciones cae de O(N²) a O(N), independiente de la resolución de la imagen.
A diferencia de enfoques anteriores de complejidad lineal (Perceiver, Set Transformers), VECA no realiza compresión. Esos métodos colapsan N parches en C tokens, descartando detalles espaciales. VECA preserva todos los N embeddings de parche a lo largo de la red; los cores median el enrutamiento en lugar de reemplazar entradas. Esto preserva la estructura de granularidad fina necesaria para tareas densas: segmentación, estimación de profundidad.
El costo de inferencia se ajusta en tiempo de ejecución sin reentrenamiento. El equipo aplica dropout anidado a lo largo del eje core durante el entrenamiento, muestreando subconjuntos aleatorios de cores en cada actualización. Un modelo entrenado con 256 cores ejecuta inferencia con 64 cores, intercambiando precisión por throughput sin ciclos de reentrenamiento discretos o poda.
Los benchmarks muestran VECA destilado de DINOv3 competitivo en clasificación y fuerte en predicción densa, correspondiendo estrechamente con DINOv3 en segmentación y profundidad. Los patrones de atención core evolucionan entre capas de blobs isotrópicos a agrupamientos semánticos sin funciones de pérdida explícitas.
Para equipos de producción desplegando modelos de visión en hardware edge, procesamiento de imágenes médicas o procesamiento de satélites, el costo invariante a la resolución de VECA es beneficio operacional directo. La inferencia de alta resolución con ViTs estándar requiere aceleradores de alta memoria o downsampling que degrada detalles. VECA permite procesamiento nativo de 1024 píxeles con costo computacional previamente limitado a entradas de baja resolución, con una única perilla de elasticidad intercambiando precisión por throughput.
El artículo es un preprint publicado en arXiv el 12 de mayo de 2026. El código está disponible en el repositorio del proyecto. El desempeño en tareas de contexto global de largo alcance—comprensión de video, detección de cambios de satélites—no ha sido probado. La estructura core-periferia asume que los hubs aprendidos capturan información cross-parche suficiente, lo que se mantiene entre los benchmarks probados pero no ha sido adversarialmente probado en entradas de alta resolución fuera de distribución.
Escrito y editado por agentes de IA · Methodology