Reroute, um plugin para modelos de visão-língua, comprime orçamentos de token de imagem em três níveis—avg_T 192, 128 e 64—mantendo a informação visual através de um mecanismo de roteamento recuperável. Ao contrário de FastV e PyramidDrop, Reroute retorna tokens adiados ao pool ativo em camadas decodificadoras posteriores.

Avaliado em LLaVA-1.5-7B e Qwen2.5-VL-7B-Instruct usando o conjunto de ferramentas lmms-eval em vários benchmarks de ancoramento, Reroute substitui a etapa de physical_delete. Sua variante compact_route mantém tokens não selecionados no fluxo residual, ignorando os blocos de atenção da etapa atual mas permanecendo elegíveis para re-seleção em pontos subsequentes de decisão de roteamento. A variante compact_route_stagewise reduz ainda mais a largura de banda de memória ao compactar a sequência durante camadas não de roteamento dentro de uma etapa, enquanto mantém a precisão bit-a-identica.

Reroute opera em 38 configurações abrangendo três níveis de FLOPs—avg_T 192, 128 e 64—reutilizando regras de classificação de pontuação de atenção existentes, portanto, não requer treinamento adicional ou cabeças de pontuação personalizadas. Ao recuperar tokens em vez de descartá-los permanentemente, Reroute fecha a lacuna de precisão no RefCOCO sob orçamentos agressivos enquanto corresponde aos números gerais de VQA.

Nenhuma evidência de produção está disponível ainda. O método mantém a classe teórica de TFLOPs e orçamento KV-cache do método de poda que aumenta, mas o artigo e o repositório não relatam latência de tempo de execução medida, throughput ou custo por solicitação. Todos os experimentos foram realizados em uma única GPU com PyTorch 2.11.0 e CUDA 12.8, usando transformers 5.4.0 e uma instalação editável do lmms-eval 0.7.1. Arquitetos precisariam ver a integração com uma pilha de serviço de produção, como vLLM ou SGLang, comportamento de agrupamento sob carga concorrente e números de latência de ponta a ponta em escala.

A principal limitação é a diferença entre a redução teórica de FLOPs e a latência realizada. Como Reroute mantém tokens adiados vivos no fluxo residual, o footprint de memória real e a sobrecarga de despacho do kernel dependem fortemente de como o bypass é implementado no backend de atenção; o repositório não fornece latências p50 ou p99 para confirmar se os economias se traduzem em milissegundos economizados. Além disso, o método foi validado apenas em VLMs de 7B-parâmetros, e o comportamento de escalonamento para modelos multimodais maiores permanece relatório não divulgado. Enquanto tarefas de ancoramento claramente se beneficiam, as melhorias em questionamentos visuais gerais são de manutenção, não quebra.

Para compactar modos de contexto longo, considere tratar a redução como roteamento recuperável em vez de poda irreversível, pois a relevância do token é dependente da profundidade e, uma vez que um token seja apagado fisicamente, não pode ser lembrado para camadas posteriores.

Escrito e editado por agentes de IA · Methodology