Qwen3-VL Ganha 4,8 Pontos Com Módulo de Memória Visual Persistente

Pesquisadores do Shanghai AI Laboratory e cinco universidades colaboradoras quantificaram uma falha estrutural em todo modelo de visão-linguagem autorregressivo e publicaram uma correção que eleva a precisão média de benchmark em 4,8 pontos percentuais no Qwen3-VL-8B enquanto adiciona apenas 0,32% à contagem de parâmetros.

A falha, rotulada como Diluição de Sinal Visual, decorre de como a mecânica de atenção funciona em LVLMs baseados em transformadores. Tokens visuais são injetados uma única vez no início da janela de contexto e nunca são reabastecidos. Conforme o modelo gera texto, a função de partição de atenção se expande com cada novo token, redistribuindo a massa de probabilidade entre um pool crescente. Os tokens visuais fixos recebem participações de atenção progressivamente menores. O paper descreve isso como decaimento assintótico em um Equilíbrio de Baixa Atenção. Para empresas executando compreensão de documentos, imagem-para-relatório ou pipelines de QA visual multi-turno, a precisão degrada silenciosamente conforme o comprimento da resposta cresce.

A correção proposta, Memória Visual Persistente (PVM), é um adaptador gargalo inserido como ramo paralelo junto à rede feed-forward em três camadas de transformador—camadas 8, 16 e 24 no modelo 8B; camadas 5, 11 e 17 no 4B. Dentro de cada ramo PVM, estados ocultos de texto executam cross-atenção cujas chaves e valores são restritos exclusivamente aos embeddings visuais originais e fixos. Um gate aprendível inicializado em zero controla a razão de mix-back, permitindo que o módulo comece inerte e ative apenas conforme necessário. A dimensão latente de PVM é 512. Parâmetros totais adicionados no backbone 8B: 27,92M, ou 0,32% de overhead.

O treinamento é em duas etapas. Uma passagem SFT em 526.000 amostras visualmente centradas filtradas do OpenMMReasoner-SFT-874K alinha o novo módulo à recuperação visual. Uma passagem de refinamento GRPO em 3.600 consultas de raciocínio complexo do MMK12, ThinkLite-VL-hard, ViRL39K e We-Math2.0-Pro aguça o modelo em tarefas que requerem grounding visual sustentado ao longo de cadeias de raciocínio longas. Durante SFT, o codificador de visão, backbone de linguagem e projetor são congelados; apenas parâmetros de PVM são treinados. Durante GRPO, o backbone de linguagem e PVM são treinados conjuntamente. Execuções em escala completa usaram oito GPUs NVIDIA H200 com 141 GB VRAM cada uma, com DeepSpeed ZeRO-2 para SFT e ZeRO-3 para GRPO.

Testados em oito avaliações—MMMU, MMBench-CN, MMBench-EN, MMStar, MMT, MathVerse, MathVision e AI2D—resultados se mantêm em ambas as escalas. Qwen3-VL-8B-Instruct obtém 66,7% de precisão média; PVM-8B após SFT alcança 70,6%; PVM-8B após SFT+GRPO alcança 71,5%, um ganho de 4,8 pontos. No 4B, a baseline é 64,0%; PVM-4B SFT+GRPO alcança 68,4%, um ganho de 4,4 pontos. A melhoria é maior em tarefas de raciocínio complexo que requerem referência visual repetida enquanto produzem longas cadeias de texto dedutivo.

O design oferece duas vantagens para arquitetos de IA corporativa. Primeiro, o ramo PVM é estruturalmente independente do fluxo autorregressivo—não injeta tokens visuais na sequência de texto, evitando os distúrbios de coerência linguística que esquemas de re-injeção visual anteriores introduziram. Segundo, o overhead de parâmetros é pequeno o suficiente para que retrofit de uma implantação Qwen3-VL existente não mude materialmente a pegada de memória de inferência ou exija re-quantização.

O paper tem limitações reais. Todos os experimentos são no Qwen3-VL; generalização para LLaVA, InternVL ou outras famílias de modelo não é demonstrada. Nenhum número de latência de inferência aparece—o ramo de cross-atenção paralelo adiciona FLOPs a cada passagem direta, e o overhead de relógio de parede em hardware de produção é desconhecido. O repositório GitHub fornece código de modelo e pontos de entrada de treinamento, mas não checkpoints pré-treinados, então equipes devem executar o pipeline completo de duas etapas do zero.

Para qualquer organização executando workflows visuais de contexto longo em modelos de código aberto e atribuindo quedas de precisão à qualidade de dados ou engenharia de prompt, PVM é um argumento de 28 milhões de parâmetros que a causa raiz está na mecânica de atenção—e agora é corrigível.

Sources

Visual Signal Dilution: visual attention decays inversely with generated sequence length, driving models into a Low-Attention Equilibrium
"as textual history accumulates, the normalization induced by attention over an ever-growing context redistributes probability mass across more tokens, causing the once-injected visual signals to be progressively attenuated. This process drives the model through a phase of asymptotic decay into a Low-Attention Equilibrium"
arxiv.org ↗
PVM is inserted as a parallel branch alongside the FFN at layers 8, 16, 24 for the 8B model and layers 5, 11, 17 for the 4B model
"The paper uses intermediate injection layers: Qwen3-VL-8B: layers 8, 16, 24 / Qwen3-VL-4B: layers 5, 11, 17"
github.com ↗
PVM latent dimension is 512
"PVM latent dimension: 512"
github.com ↗
PVM adds 27.92M trainable parameters to the 8B backbone, approximately 0.32% overhead
"The 8B PVM model adds 27.92M trainable parameters, about 0.32% of the 8B backbone."
github.com ↗
SFT training used 526,000 visually centered samples filtered from OpenMMReasoner-SFT-874K
"SFT alignment data: 526k visually centered samples filtered from OpenMMReasoner-SFT-874K."
github.com ↗
GRPO refinement used 3,600 complex reasoning queries from MMK12, ThinkLite-VL-hard, ViRL39K, and We-Math2.0-Pro
"GRPO refinement data: 3.6k complex reasoning queries aggregated from MMK12, ThinkLite-VL-hard, ViRL39K, and We-Math2.0-Pro."
github.com ↗
Full-scale training used 8 NVIDIA H200 GPUs with 141 GB VRAM each
"Full-scale training used 8 NVIDIA H200 GPUs with 141 GB VRAM per GPU."
github.com ↗
Qwen3-VL-8B baseline scores 66.7% average accuracy; PVM-8B SFT+GRPO scores 71.5%, a 4.8-point gain
"Qwen3-VL-8B-Instruct 66.7 / PVM-8B SFT 70.6 / PVM-8B SFT + GRPO 71.5"
github.com ↗
Qwen3-VL-4B baseline scores 64.0% average accuracy; PVM-4B SFT+GRPO scores 68.4%, a 4.4-point gain
"Qwen3-VL-4B-Instruct 64.0 / PVM-4B SFT 67.2 / PVM-4B SFT + GRPO 68.4"
github.com ↗
Benchmarks evaluated: MMMU, MMBench-CN, MMBench-EN, MMStar, MMT, MathVerse, MathVision, AI2D
"The paper evaluates with lmms-eval at inference temperature 0.7 on: MMMU MMBench-CN MMBench-EN MMStar MMT MathVerse MathVision AI2D"
github.com ↗
PVM uses gated cross-attention attending exclusively to original visual embeddings, with a zero-initialized learnable gate
"Run text-to-vision cross-attention whose keys and values are restricted to the fixed visual set. Apply a lightweight MLP, restore the feature to the model hidden size, and add it through a learnable gate initialized at zero."
github.com ↗
PVM is integrated as a parallel branch alongside the FFN in the Transformer block, establishing a distance-agnostic retrieval pathway
"PVM is integrated alongside the Feed-Forward Network (FFN) in the Transformer block, effectively bifurcating the generation flow: while the original FFN preserves the model's reasoning logic, the parallel PVM branch serves as a dedicated channel for retrieving raw visual evidence"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Qwen3-VL Ganha 4,8 Pontos Com Módulo de Memória Visual Persistente

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.