Modelos de visão-linguagem roteiam conhecimento através de apenas 2,5% da rede

Análise mecanicista de três famílias de VLM revela como resolvem conflitos entre evidência visual e conhecimento memorizado: ancoragem visual domina quando a evidência é clara, mas priors de conhecimento sequestram o raciocínio sob ruído visual. Compreender esse tradeoff molda a confiabilidade multimodal em escala.

Um novo artigo da University of Tübingen, Harvard e UT Austin identifica os primeiros mecanismos causais em nível de componente por trás de como modelos de visão-linguagem arbitram entre percepção visual e conhecimento aprendido. A descoberta é estruturalmente desequilibrada de formas que importam para qualquer sistema em produção executando queries multimodais.

O artigo, "Vision-Default, Prior-Override," aplica patching de ativação através de residual streams, attention heads individuais e sublayers de MLP através de cinco checkpoints de modelo: Qwen-VL (3B, 7B), LLaVA-NeXT (7B) e PaliGemma (3B, 10B). O resultado central: ancoragem visual não requer circuitos dedicados e serve como o pathway padrão. Ancoragem de conhecimento prévio depende de um conjunto esparso de attention heads — apenas 2,5–4,8% do total de heads — concentradas na segunda metade da rede.

Ablacionar essas heads inverte 68–96% das predições ancoradas em priors para visuais. A ablação reversa muda apenas 0,8–7,5% das predições ancoradas visualmente. Ancoragem visual é robusta; recuperação de conhecimento é frágil.

Os heads identificados se dividem em duas classes funcionais. Routing heads modulam o fluxo de informação entre representações de imagem e texto. Writing heads projetam diretamente tokens de resposta no residual stream. Sublayers de MLP amplificam mas não impulsionam o roteamento. A implementação varia por arquitetura: Qwen-VL e LLaVA-NeXT redistribuem pesos de atenção; PaliGemma roteia através de diferenças de representação. Qualquer estratégia de mitigação é, portanto, específica do modelo.

A falha prática emerge em deployments de agentes. Mostrado um morango azul, um VLM identifica corretamente como azul. Perguntado "qual cor um morango tem normalmente?" — um prompt que explicitamente convida recuperação de conhecimento — o mesmo modelo responde "azul," ancorado visualmente onde deveria recuperar da memória. Esse modo de falha aparece em loops de OCR-mais-conhecimento-do-mundo: o modelo se ancora visualmente em um valor renderizado mesmo quando a pergunta pede pelo fato canônico.

A assimetria produz duas constraints arquiteturais. Primeiro, direcionamento direcionado dos sparse writing heads é um caminho de mitigação plausível e de baixo overhead. Os autores liberaram código em github.com/nlietzow/vision-default-prior-override. Segundo, ancoragem visual vence por padrão sob qualquer ambiguidade. Sistemas necessitando respostas confiáveis ancoradas em conhecimento — lookups de interações de medicamentos, mapeamento schema-para-valor, disambiguação de OCR — não podem contar apenas com o circuito de conhecimento interno do modelo. Augmentação de retrieval que torna a resposta ancorada em conhecimento visualmente presente na entrada é estruturalmente mais sólida do que estratégias de prompting pedindo ao modelo para ignorar o que vê.

A descoberta se sustenta através de famílias de modelos e escalas (3B a 10B parâmetros). Escala não é a solução. O mecanismo de roteamento difere por arquitetura. Mas estrutura assimétrica é consistente: ancoragem de priors é o modo frágil em cada modelo testado.

Se seu stack de agentes mistura evidência visual com retrieval de conhecimento-do-mundo, assuma que o sinal visual vence a menos que você tenha especificamente instrumentado quais heads realizam roteamento de priors. Mesmo assim, trate o circuito de conhecimento como o componente mais provável de falhar sob ruído.

Sources

Prior-knowledge grounding depends on 2.5–4.8% of attention heads concentrated in the second half of the network; ablating them flips 68–96% of prior-grounded predictions to visually grounded answers while changing only 0.8–7.5% of visually grounded predictions
"visual grounding emerges by default, whereas prior grounding depends on a small set of causally necessary attention heads (2.5-4.8%) concentrated in the second half of the network... Ablating them flips predictions from knowledge-grounded to visually grounded answers in 68-96% of cases under prior-knowledge prompts, but changes only 0.8-7.5% of visually grounded predictions"
arxiv.org ↗
Identified heads decompose into routing heads that modulate information flow and writing heads that directly project answer tokens into the residual stream; MLP sublayers play an amplifier role
"The identified heads decompose into routing heads, which modulate information flow, and writing heads, which directly project answer tokens into the residual stream. This structure is consistent across model families and scales"
arxiv.org ↗
Tested across Qwen-VL 3B/7B, LLaVA-NeXT 7B, and PaliGemma 3B/10B; Qwen-VL and LLaVA-NeXT redistribute attention between image and text tokens while PaliGemma routes through differences in attended representations
"the routing implementation diverges across architectures: Qwen-VL and LLaVA-NeXT redistribute attention between image and text tokens, whereas PaliGemma routes through differences in the attended representations"
arxiv.org ↗
VLMs visually anchor even when prompted for prior-knowledge answers — shown a blue strawberry and asked 'what color is a strawberry usually?', the model still answers based on visual input
"when asked 'what color is a strawberry usually?', a question that should rely on prior knowledge rather than the image, the model frequently continues to respond based on the observed visual input"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Modelos de visão-linguagem roteiam conhecimento através de apenas 2,5% da rede

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.