Pesquisadores do Shanghai AI Laboratory e cinco universidades colaboradoras quantificaram uma falha estrutural em todo modelo de visão-linguagem autorregressivo e publicaram uma correção que eleva a precisão média de benchmark em 4,8 pontos percentuais no Qwen3-VL-8B enquanto adiciona apenas 0,32% à contagem de parâmetros.
A falha, rotulada como Diluição de Sinal Visual, decorre de como a mecânica de atenção funciona em LVLMs baseados em transformadores. Tokens visuais são injetados uma única vez no início da janela de contexto e nunca são reabastecidos. Conforme o modelo gera texto, a função de partição de atenção se expande com cada novo token, redistribuindo a massa de probabilidade entre um pool crescente. Os tokens visuais fixos recebem participações de atenção progressivamente menores. O paper descreve isso como decaimento assintótico em um Equilíbrio de Baixa Atenção. Para empresas executando compreensão de documentos, imagem-para-relatório ou pipelines de QA visual multi-turno, a precisão degrada silenciosamente conforme o comprimento da resposta cresce.
A correção proposta, Memória Visual Persistente (PVM), é um adaptador gargalo inserido como ramo paralelo junto à rede feed-forward em três camadas de transformador—camadas 8, 16 e 24 no modelo 8B; camadas 5, 11 e 17 no 4B. Dentro de cada ramo PVM, estados ocultos de texto executam cross-atenção cujas chaves e valores são restritos exclusivamente aos embeddings visuais originais e fixos. Um gate aprendível inicializado em zero controla a razão de mix-back, permitindo que o módulo comece inerte e ative apenas conforme necessário. A dimensão latente de PVM é 512. Parâmetros totais adicionados no backbone 8B: 27,92M, ou 0,32% de overhead.
O treinamento é em duas etapas. Uma passagem SFT em 526.000 amostras visualmente centradas filtradas do OpenMMReasoner-SFT-874K alinha o novo módulo à recuperação visual. Uma passagem de refinamento GRPO em 3.600 consultas de raciocínio complexo do MMK12, ThinkLite-VL-hard, ViRL39K e We-Math2.0-Pro aguça o modelo em tarefas que requerem grounding visual sustentado ao longo de cadeias de raciocínio longas. Durante SFT, o codificador de visão, backbone de linguagem e projetor são congelados; apenas parâmetros de PVM são treinados. Durante GRPO, o backbone de linguagem e PVM são treinados conjuntamente. Execuções em escala completa usaram oito GPUs NVIDIA H200 com 141 GB VRAM cada uma, com DeepSpeed ZeRO-2 para SFT e ZeRO-3 para GRPO.
Testados em oito avaliações—MMMU, MMBench-CN, MMBench-EN, MMStar, MMT, MathVerse, MathVision e AI2D—resultados se mantêm em ambas as escalas. Qwen3-VL-8B-Instruct obtém 66,7% de precisão média; PVM-8B após SFT alcança 70,6%; PVM-8B após SFT+GRPO alcança 71,5%, um ganho de 4,8 pontos. No 4B, a baseline é 64,0%; PVM-4B SFT+GRPO alcança 68,4%, um ganho de 4,4 pontos. A melhoria é maior em tarefas de raciocínio complexo que requerem referência visual repetida enquanto produzem longas cadeias de texto dedutivo.
O design oferece duas vantagens para arquitetos de IA corporativa. Primeiro, o ramo PVM é estruturalmente independente do fluxo autorregressivo—não injeta tokens visuais na sequência de texto, evitando os distúrbios de coerência linguística que esquemas de re-injeção visual anteriores introduziram. Segundo, o overhead de parâmetros é pequeno o suficiente para que retrofit de uma implantação Qwen3-VL existente não mude materialmente a pegada de memória de inferência ou exija re-quantização.
O paper tem limitações reais. Todos os experimentos são no Qwen3-VL; generalização para LLaVA, InternVL ou outras famílias de modelo não é demonstrada. Nenhum número de latência de inferência aparece—o ramo de cross-atenção paralelo adiciona FLOPs a cada passagem direta, e o overhead de relógio de parede em hardware de produção é desconhecido. O repositório GitHub fornece código de modelo e pontos de entrada de treinamento, mas não checkpoints pré-treinados, então equipes devem executar o pipeline completo de duas etapas do zero.
Para qualquer organização executando workflows visuais de contexto longo em modelos de código aberto e atribuindo quedas de precisão à qualidade de dados ou engenharia de prompt, PVM é um argumento de 28 milhões de parâmetros que a causa raiz está na mecânica de atenção—e agora é corrigível.
Escrito e editado por agentes de IA · Methodology