Cabeçalhos de Atenção Esparsos Redirecionam Modelos de Visão-Linguagem com 83% de Precisão

Gandikota e Bau da Universidade do Nordeste identificaram um conjunto esparso de cabeçalhos de atenção no backbone de linguagem do Qwen3-VL que, ao ser redirecionado no tempo de inferência, pode direcionar a geração para uma região alvo arbitrária com 83,1% de precisão. Os pesquisadores utilizaram tiras de quadrinhos de seis painéis como um ambiente de teste controlado para calcular uma pontuação de olhar para cada um dos 1.152 cabeçalhos de atenção do Qwen3-VL-8B, determinando se a matriz de atenção 6×6 muda diagonalmente quando o painel consultado muda. Eles descobriram que apenas as camadas 20-28 mudam de forma confiável a resposta do modelo ao adicionar uma direção de leitura reversa, confirmando que a roteamento flexível, no nível do painel, reside nos cabeçalhos de atenção e não em vies amplos de camada.

A intervenção é precisa; redirecionar os 100 principais cabeçalhos de olhar força o modelo a descrever qualquer painel escolhido quando questionado da mesma forma. Sem direcionamento, o modelo retorna ao primeiro painel por padrão, e a mesma edição aplicada a cabeçalhos aleatórios falha, enquanto a aplicação em todos os cabeçalhos destrói a geração. Este efeito se generaliza para imagens naturais do COCO, se repete em tamanhos do Qwen3-VL de 2B a 32B de parâmetros e funciona em tempo real. Um demonstrativo do navegador carrega o Qwen3-VL-2B inteiramente via WebGPU e, usando apenas dez cabeçalhos redirecionados, direciona a saída para o painel de quadrinho em que o cursor paira, mesmo no meio de uma frase, com texto transmitido tingido pela painel que o impulsiona. Não há ajuste fino ou atualizações de peso envolvidos; as edições são operações puras de máscara de atenção no tempo de inferência.

No entanto, o estudo relata que algumas famílias de VLM codificadores congelados não mostram um conjunto comparável de cabeçalhos de olhar, então equipes que utilizam essas arquiteturas não devem esperar que o mecanismo exista. Mesmo em modelos compatíveis, o direcionamento é frágil: intervir em todos os 1.152 cabeçalhos destrói a qualidade da geração, o que significa que a classificação automática de cabeçalhos é obrigatória e a misidentificação é onerosa. Sistemas de produção também devem ultrapassar a diferença entre coordenadas de pixels voltados para o usuário e a grade de token de patch do modelo; o quadrinho de seis painéis fornece limites limpos, mas fotografias de formato livre carecem dessa estrutura narrativa espacial, e 83,1% de precisão de painel não garante segmentação precisa em cenas do mundo real bagunçadas.

A descoberta se alinha com trabalho paralelo de direcionamento no tempo de inferência do CG-VLM, que demonstrou que alucinações de objeto são frequentemente impulsionadas por "inércia de texto" — atenção da camada intermediária se desviando de tokens de imagem em direção a prioris linguísticos — e mostrou que reorientar a atenção sem retreinamento pode recuperar a fundamentação nos benchmarks POPE e CHAIR. Juntos, os papéis sugerem que a fundamentação visual em VLMs de produção é mantida por subcircuitos específicos, esparsos que são mensuráveis e corrigíveis em voo, transformando alucinações de um problema de retreinamento do modelo em um problema de roteamento no tempo de inferência.

Arquitetos devem considerar o diagnóstico: algumas passagens para frente com prompts visuais controlados podem pontuar cada cabeçalho para rastreamento de região, expondo uma camada direcionada no tempo de inferência que não custa nada para implementar — desde que sua arquitetura exponha esses cabeçalhos e você verifique se a grade de patch do token do seu tokenizer de imagem mapeia limpamente para as regiões semânticas que você precisa controlar.

Sources

Top-100 gaze heads (fewer than 9% of all heads) steer the model's answer to any chosen comic panel at 83.1% accuracy with a single attention-mask intervention, no retraining required
"A single attention-mask intervention on the top-100 gaze heads, fewer than 9% of all heads, steers the model's answer to any chosen comic panel at 83.1% accuracy, while the same intervention on random heads fails to redirect the answer, and intervening on all heads destroys generation."
arxiv.org ↗
Qwen3-VL-8B has 1,152 attention heads total; visual reading order concentrates in layers 20–28
"The model we study most, Qwen3-VL-8B, has 1,152 of them. Only layers 20–28 flip the model's answer from the first panel (green) to the reverse-reading target (red); the same direction does nothing anywhere else in the network."
gaze.baulab.info ↗
The mechanism recurs across model sizes from 2B to 32B parameters; some frozen-encoder families show no comparable gaze-head set
"The mechanism further recurs across model sizes from 2B to 32B parameters and across other VLM architectures, although some frozen-encoder families show no comparable head set."
arxiv.org ↗
Steering generalizes from comic strips to natural COCO images
"Beyond comics, the same intervention redirects answers to chosen regions in natural COCO images."
arxiv.org ↗
Browser demo runs Qwen3-VL-2B entirely via WebGPU using only 10 redirected heads; hovering over panels steers generation mid-sentence
"Qwen3-VL-2B runs entirely in your browser; your cursor becomes the model's gaze. Hover over any panel and the model starts writing about it. Move your cursor mid-sentence to re-steer it."
gaze.baulab.info ↗
Object hallucinations in VLMs are driven by text inertia — attention drifting from visual tokens toward linguistic priors mid-generation
"Large Vision-Language Models (VLMs) often exhibit text inertia, where attention drifts from visual evidence toward linguistic priors, resulting in object hallucinations."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Cabeçalhos de Atenção Esparsos Redirecionam Modelos de Visão-Linguagem com 83% de Precisão

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.