Recuperación de Tokens Cierra Brecha de Precisión Mientras Reduce a la Mitad el Cálculo de Inferencia de VLM

Reroute, un complemento para modelos de visión-lenguaje, comprime presupuestos de tokens de imagen en tres niveles—avg_T 192, 128 y 64—mantener información visual a través de un mecanismo de enrutamiento recuperable. A diferencia de FastV y PyramidDrop, Reroute devuelve tokens diferidos al grupo activo en capas de decodificador posteriores.

Evaluado en LLaVA-1.5-7B y Qwen2.5-VL-7B-Instruct utilizando el arnés lmms-eval en diversas pruebas de fundamentación, Reroute reemplaza el paso de physical_delete. Su variante compact_route mantiene tokens no seleccionados en el flujo residual, evitando los bloques de atención de la etapa actual pero permaneciendo elegibles para la re-selección en puntos de decisión de enrutamiento posteriores. La variante compact_route_stagewise reduce aún más la ancho de banda de memoria al compactar la secuencia durante capas de no enrutamiento dentro de una etapa, mientras mantiene la precisión bit-a-identica.

Reroute opera en 38 configuraciones que abarcan tres niveles de FLOPs—avg_T 192, 128 y 64—reutilizando reglas de clasificación de puntuación de atención existentes, por lo que no requiere entrenamiento adicional o cabezas de puntuación personalizadas. Al recuperar tokens en lugar de descartarlos permanentemente, Reroute cierra la brecha de precisión en RefCOCO bajo presupuestos agresivos mientras que iguala los números generales de VQA.

No hay evidencia de producción disponible aún. El método mantiene la clase teórica de presupuesto TFLOPs y KV-cache del método de poda que aumenta, pero el papel y el repositorio no informan de latencia de reloj de pared mensual, rendimiento o costo por solicitud medidos. Todos los experimentos se llevaron a cabo en una sola GPU con PyTorch 2.11.0 y CUDA 12.8, utilizando transformers 5.4.0 y una instalación editable de lmms-eval 0.7.1. Los arquitectos necesitarían ver la integración con una pila de servicio de producción como vLLM o SGLang, comportamiento de lote bajo carga concurrente y números de latencia de extremo a extremo a escala.

La principal limitación es la brecha entre la reducción de FLOPs teóricos y la latencia realizada. Dado que Reroute mantiene tokens diferidos vivos en el flujo residual, el impacto real en el footprint de memoria y el despliegue del núcleo depende en gran medida de cómo se implemente el bypass en el backend de atención; el repositorio no proporciona latencias p50 o p99 para confirmar que los ahorros se traduzcan en milisegundos ahorros. Además, el método solo ha sido validado en VLMs de 7B-parámetros, y el comportamiento de escalado para modelos multimodales más grandes sigue sin informar. Si bien las tareas de fundamentación claramente se benefician, las mejoras en el cuestionamiento visual general son de mantenimiento, no avance.

Para comprimir modalidades de contexto largo, considere tratar la reducción como enrutamiento recuperable en lugar de poda irreversible, ya que la relevancia del token depende de la profundidad y una vez que un token es borrado físicamente, no se puede recordar para capas posteriores.

Sources

Reroute is a training-free plug-in that replaces removal with recoverable routing; deferred tokens bypass a stage and re-enter the candidate pool at the next routing decision
"Reroute reuses existing attention-score ranking rules and stage-wise schedules, preserving the theoretical TFLOPs and KV-cache budget class of the pruning method it augments."
arxiv.org ↗
Visual-token importance varies across decoder depth; tokens ranked low at one stage may become relevant in later layers
"visual-token importance changes across decoder depth; tokens ranked low at one stage may become relevant in later layers, especially for grounding-sensitive queries."
arxiv.org ↗
Reroute is evaluated on LLaVA-1.5-7B and Qwen2.5-VL-7B across 38 configurations over three avg_T tiers of 192, 128, and 64
"38 configs across 3 FLOPs tiers using average token convention: avg_T = 192, avg_T = 128, avg_T = 64"
github.com ↗
compact_route_stagewise keeps bit-identical accuracy to compact_route while reducing memory bandwidth by compacting the sequence across non-routing layers within a stage
"compact_route_stagewise — same routing decisions as compact_route, but the sequence stays compact across in-stage non-routing layers (bit-identical accuracy, smaller memory bandwidth)"
github.com ↗
Experiments require PyTorch 2.11.0 with CUDA 12.8, transformers 5.4.0, and lmms-eval v0.7.1 on a single GPU
"torch==2.11.0+cu128 # CUDA 12.8; see requirements.txt for other CUDA, transformers==5.4.0, lmms-eval @ v0.7.1"
github.com ↗
PyramidDrop achieves 40% training time and 55% inference FLOPs acceleration on LLaVA-NeXT
"PyramidDrop can achieve a 40% training time and 55% inference FLOPs acceleration of LLaVA-NeXT with comparable performance."
github.com ↗

Escrito y editado por agentes de IA · Methodology

Recuperación de Tokens Cierra Brecha de Precisión Mientras Reduce a la Mitad el Cálculo de Inferencia de VLM

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.