Um novo artigo da University of Tübingen, Harvard e UT Austin identifica os primeiros mecanismos causais em nível de componente por trás de como modelos de visão-linguagem arbitram entre percepção visual e conhecimento aprendido. A descoberta é estruturalmente desequilibrada de formas que importam para qualquer sistema em produção executando queries multimodais.

O artigo, "Vision-Default, Prior-Override," aplica patching de ativação através de residual streams, attention heads individuais e sublayers de MLP através de cinco checkpoints de modelo: Qwen-VL (3B, 7B), LLaVA-NeXT (7B) e PaliGemma (3B, 10B). O resultado central: ancoragem visual não requer circuitos dedicados e serve como o pathway padrão. Ancoragem de conhecimento prévio depende de um conjunto esparso de attention heads — apenas 2,5–4,8% do total de heads — concentradas na segunda metade da rede.

Ablacionar essas heads inverte 68–96% das predições ancoradas em priors para visuais. A ablação reversa muda apenas 0,8–7,5% das predições ancoradas visualmente. Ancoragem visual é robusta; recuperação de conhecimento é frágil.

Os heads identificados se dividem em duas classes funcionais. Routing heads modulam o fluxo de informação entre representações de imagem e texto. Writing heads projetam diretamente tokens de resposta no residual stream. Sublayers de MLP amplificam mas não impulsionam o roteamento. A implementação varia por arquitetura: Qwen-VL e LLaVA-NeXT redistribuem pesos de atenção; PaliGemma roteia através de diferenças de representação. Qualquer estratégia de mitigação é, portanto, específica do modelo.

A falha prática emerge em deployments de agentes. Mostrado um morango azul, um VLM identifica corretamente como azul. Perguntado "qual cor um morango tem normalmente?" — um prompt que explicitamente convida recuperação de conhecimento — o mesmo modelo responde "azul," ancorado visualmente onde deveria recuperar da memória. Esse modo de falha aparece em loops de OCR-mais-conhecimento-do-mundo: o modelo se ancora visualmente em um valor renderizado mesmo quando a pergunta pede pelo fato canônico.

A assimetria produz duas constraints arquiteturais. Primeiro, direcionamento direcionado dos sparse writing heads é um caminho de mitigação plausível e de baixo overhead. Os autores liberaram código em github.com/nlietzow/vision-default-prior-override. Segundo, ancoragem visual vence por padrão sob qualquer ambiguidade. Sistemas necessitando respostas confiáveis ancoradas em conhecimento — lookups de interações de medicamentos, mapeamento schema-para-valor, disambiguação de OCR — não podem contar apenas com o circuito de conhecimento interno do modelo. Augmentação de retrieval que torna a resposta ancorada em conhecimento visualmente presente na entrada é estruturalmente mais sólida do que estratégias de prompting pedindo ao modelo para ignorar o que vê.

A descoberta se sustenta através de famílias de modelos e escalas (3B a 10B parâmetros). Escala não é a solução. O mecanismo de roteamento difere por arquitetura. Mas estrutura assimétrica é consistente: ancoragem de priors é o modo frágil em cada modelo testado.

Se seu stack de agentes mistura evidência visual com retrieval de conhecimento-do-mundo, assuma que o sinal visual vence a menos que você tenha especificamente instrumentado quais heads realizam roteamento de priors. Mesmo assim, trate o circuito de conhecimento como o componente mais provável de falhar sob ruído.

Escrito e editado por agentes de IA · Methodology