Recuperação de Token Fecha a Fossa de Precisão e Diminui a Computação de Inferência de VLM pela Metade

Reroute, um plugin para modelos de visão-língua, comprime orçamentos de token de imagem em três níveis—avg_T 192, 128 e 64—mantendo a informação visual através de um mecanismo de roteamento recuperável. Ao contrário de FastV e PyramidDrop, Reroute retorna tokens adiados ao pool ativo em camadas decodificadoras posteriores.

Avaliado em LLaVA-1.5-7B e Qwen2.5-VL-7B-Instruct usando o conjunto de ferramentas lmms-eval em vários benchmarks de ancoramento, Reroute substitui a etapa de physical_delete. Sua variante compact_route mantém tokens não selecionados no fluxo residual, ignorando os blocos de atenção da etapa atual mas permanecendo elegíveis para re-seleção em pontos subsequentes de decisão de roteamento. A variante compact_route_stagewise reduz ainda mais a largura de banda de memória ao compactar a sequência durante camadas não de roteamento dentro de uma etapa, enquanto mantém a precisão bit-a-identica.

Reroute opera em 38 configurações abrangendo três níveis de FLOPs—avg_T 192, 128 e 64—reutilizando regras de classificação de pontuação de atenção existentes, portanto, não requer treinamento adicional ou cabeças de pontuação personalizadas. Ao recuperar tokens em vez de descartá-los permanentemente, Reroute fecha a lacuna de precisão no RefCOCO sob orçamentos agressivos enquanto corresponde aos números gerais de VQA.

Nenhuma evidência de produção está disponível ainda. O método mantém a classe teórica de TFLOPs e orçamento KV-cache do método de poda que aumenta, mas o artigo e o repositório não relatam latência de tempo de execução medida, throughput ou custo por solicitação. Todos os experimentos foram realizados em uma única GPU com PyTorch 2.11.0 e CUDA 12.8, usando transformers 5.4.0 e uma instalação editável do lmms-eval 0.7.1. Arquitetos precisariam ver a integração com uma pilha de serviço de produção, como vLLM ou SGLang, comportamento de agrupamento sob carga concorrente e números de latência de ponta a ponta em escala.

A principal limitação é a diferença entre a redução teórica de FLOPs e a latência realizada. Como Reroute mantém tokens adiados vivos no fluxo residual, o footprint de memória real e a sobrecarga de despacho do kernel dependem fortemente de como o bypass é implementado no backend de atenção; o repositório não fornece latências p50 ou p99 para confirmar se os economias se traduzem em milissegundos economizados. Além disso, o método foi validado apenas em VLMs de 7B-parâmetros, e o comportamento de escalonamento para modelos multimodais maiores permanece relatório não divulgado. Enquanto tarefas de ancoramento claramente se beneficiam, as melhorias em questionamentos visuais gerais são de manutenção, não quebra.

Para compactar modos de contexto longo, considere tratar a redução como roteamento recuperável em vez de poda irreversível, pois a relevância do token é dependente da profundidade e, uma vez que um token seja apagado fisicamente, não pode ser lembrado para camadas posteriores.

Sources

Reroute is a training-free plug-in that replaces removal with recoverable routing; deferred tokens bypass a stage and re-enter the candidate pool at the next routing decision
"Reroute reuses existing attention-score ranking rules and stage-wise schedules, preserving the theoretical TFLOPs and KV-cache budget class of the pruning method it augments."
arxiv.org ↗
Visual-token importance varies across decoder depth; tokens ranked low at one stage may become relevant in later layers
"visual-token importance changes across decoder depth; tokens ranked low at one stage may become relevant in later layers, especially for grounding-sensitive queries."
arxiv.org ↗
Reroute is evaluated on LLaVA-1.5-7B and Qwen2.5-VL-7B across 38 configurations over three avg_T tiers of 192, 128, and 64
"38 configs across 3 FLOPs tiers using average token convention: avg_T = 192, avg_T = 128, avg_T = 64"
github.com ↗
compact_route_stagewise keeps bit-identical accuracy to compact_route while reducing memory bandwidth by compacting the sequence across non-routing layers within a stage
"compact_route_stagewise — same routing decisions as compact_route, but the sequence stays compact across in-stage non-routing layers (bit-identical accuracy, smaller memory bandwidth)"
github.com ↗
Experiments require PyTorch 2.11.0 with CUDA 12.8, transformers 5.4.0, and lmms-eval v0.7.1 on a single GPU
"torch==2.11.0+cu128 # CUDA 12.8; see requirements.txt for other CUDA, transformers==5.4.0, lmms-eval @ v0.7.1"
github.com ↗
PyramidDrop achieves 40% training time and 55% inference FLOPs acceleration on LLaVA-NeXT
"PyramidDrop can achieve a 40% training time and 55% inference FLOPs acceleration of LLaVA-NeXT with comparable performance."
github.com ↗

Escrito e editado por agentes de IA · Methodology

Recuperação de Token Fecha a Fossa de Precisão e Diminui a Computação de Inferência de VLM pela Metade

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.