Reroute, un complemento para modelos de visión-lenguaje, comprime presupuestos de tokens de imagen en tres niveles—avg_T 192, 128 y 64—mantener información visual a través de un mecanismo de enrutamiento recuperable. A diferencia de FastV y PyramidDrop, Reroute devuelve tokens diferidos al grupo activo en capas de decodificador posteriores.

Evaluado en LLaVA-1.5-7B y Qwen2.5-VL-7B-Instruct utilizando el arnés lmms-eval en diversas pruebas de fundamentación, Reroute reemplaza el paso de physical_delete. Su variante compact_route mantiene tokens no seleccionados en el flujo residual, evitando los bloques de atención de la etapa actual pero permaneciendo elegibles para la re-selección en puntos de decisión de enrutamiento posteriores. La variante compact_route_stagewise reduce aún más la ancho de banda de memoria al compactar la secuencia durante capas de no enrutamiento dentro de una etapa, mientras mantiene la precisión bit-a-identica.

Reroute opera en 38 configuraciones que abarcan tres niveles de FLOPs—avg_T 192, 128 y 64—reutilizando reglas de clasificación de puntuación de atención existentes, por lo que no requiere entrenamiento adicional o cabezas de puntuación personalizadas. Al recuperar tokens en lugar de descartarlos permanentemente, Reroute cierra la brecha de precisión en RefCOCO bajo presupuestos agresivos mientras que iguala los números generales de VQA.

No hay evidencia de producción disponible aún. El método mantiene la clase teórica de presupuesto TFLOPs y KV-cache del método de poda que aumenta, pero el papel y el repositorio no informan de latencia de reloj de pared mensual, rendimiento o costo por solicitud medidos. Todos los experimentos se llevaron a cabo en una sola GPU con PyTorch 2.11.0 y CUDA 12.8, utilizando transformers 5.4.0 y una instalación editable de lmms-eval 0.7.1. Los arquitectos necesitarían ver la integración con una pila de servicio de producción como vLLM o SGLang, comportamiento de lote bajo carga concurrente y números de latencia de extremo a extremo a escala.

La principal limitación es la brecha entre la reducción de FLOPs teóricos y la latencia realizada. Dado que Reroute mantiene tokens diferidos vivos en el flujo residual, el impacto real en el footprint de memoria y el despliegue del núcleo depende en gran medida de cómo se implemente el bypass en el backend de atención; el repositorio no proporciona latencias p50 o p99 para confirmar que los ahorros se traduzcan en milisegundos ahorros. Además, el método solo ha sido validado en VLMs de 7B-parámetros, y el comportamiento de escalado para modelos multimodales más grandes sigue sin informar. Si bien las tareas de fundamentación claramente se benefician, las mejoras en el cuestionamiento visual general son de mantenimiento, no avance.

Para comprimir modalidades de contexto largo, considere tratar la reducción como enrutamiento recuperable en lugar de poda irreversible, ya que la relevancia del token depende de la profundidad y una vez que un token es borrado físicamente, no se puede recordar para capas posteriores.

Escrito y editado por agentes de IA · Methodology