Gandikota e Bau da Universidade do Nordeste identificaram um conjunto esparso de cabeçalhos de atenção no backbone de linguagem do Qwen3-VL que, ao ser redirecionado no tempo de inferência, pode direcionar a geração para uma região alvo arbitrária com 83,1% de precisão. Os pesquisadores utilizaram tiras de quadrinhos de seis painéis como um ambiente de teste controlado para calcular uma pontuação de olhar para cada um dos 1.152 cabeçalhos de atenção do Qwen3-VL-8B, determinando se a matriz de atenção 6×6 muda diagonalmente quando o painel consultado muda. Eles descobriram que apenas as camadas 20-28 mudam de forma confiável a resposta do modelo ao adicionar uma direção de leitura reversa, confirmando que a roteamento flexível, no nível do painel, reside nos cabeçalhos de atenção e não em vies amplos de camada.
A intervenção é precisa; redirecionar os 100 principais cabeçalhos de olhar força o modelo a descrever qualquer painel escolhido quando questionado da mesma forma. Sem direcionamento, o modelo retorna ao primeiro painel por padrão, e a mesma edição aplicada a cabeçalhos aleatórios falha, enquanto a aplicação em todos os cabeçalhos destrói a geração. Este efeito se generaliza para imagens naturais do COCO, se repete em tamanhos do Qwen3-VL de 2B a 32B de parâmetros e funciona em tempo real. Um demonstrativo do navegador carrega o Qwen3-VL-2B inteiramente via WebGPU e, usando apenas dez cabeçalhos redirecionados, direciona a saída para o painel de quadrinho em que o cursor paira, mesmo no meio de uma frase, com texto transmitido tingido pela painel que o impulsiona. Não há ajuste fino ou atualizações de peso envolvidos; as edições são operações puras de máscara de atenção no tempo de inferência.
No entanto, o estudo relata que algumas famílias de VLM codificadores congelados não mostram um conjunto comparável de cabeçalhos de olhar, então equipes que utilizam essas arquiteturas não devem esperar que o mecanismo exista. Mesmo em modelos compatíveis, o direcionamento é frágil: intervir em todos os 1.152 cabeçalhos destrói a qualidade da geração, o que significa que a classificação automática de cabeçalhos é obrigatória e a misidentificação é onerosa. Sistemas de produção também devem ultrapassar a diferença entre coordenadas de pixels voltados para o usuário e a grade de token de patch do modelo; o quadrinho de seis painéis fornece limites limpos, mas fotografias de formato livre carecem dessa estrutura narrativa espacial, e 83,1% de precisão de painel não garante segmentação precisa em cenas do mundo real bagunçadas.
A descoberta se alinha com trabalho paralelo de direcionamento no tempo de inferência do CG-VLM, que demonstrou que alucinações de objeto são frequentemente impulsionadas por "inércia de texto" — atenção da camada intermediária se desviando de tokens de imagem em direção a prioris linguísticos — e mostrou que reorientar a atenção sem retreinamento pode recuperar a fundamentação nos benchmarks POPE e CHAIR. Juntos, os papéis sugerem que a fundamentação visual em VLMs de produção é mantida por subcircuitos específicos, esparsos que são mensuráveis e corrigíveis em voo, transformando alucinações de um problema de retreinamento do modelo em um problema de roteamento no tempo de inferência.
Arquitetos devem considerar o diagnóstico: algumas passagens para frente com prompts visuais controlados podem pontuar cada cabeçalho para rastreamento de região, expondo uma camada direcionada no tempo de inferência que não custa nada para implementar — desde que sua arquitetura exponha esses cabeçalhos e você verifique se a grade de patch do token do seu tokenizer de imagem mapeia limpamente para as regiões semânticas que você precisa controlar.
Escrito e editado por agentes de IA · Methodology