Los modelos de visión-lenguaje enrutan el conocimiento a través de apenas el 2,5% de la red

El análisis mecanicista de tres familias de VLM revela cómo resuelven conflictos entre evidencia visual y conocimiento memorizado: el anclaje visual domina cuando la evidencia es clara, pero los priors de conocimiento secuestran el razonamiento bajo ruido visual. Entender este compromiso moldea la confiabilidad multimodal a escala.

Un nuevo artículo de la Universidad de Tübingen, Harvard y UT Austin identifica los primeros mecanismos causales a nivel de componente detrás de cómo los modelos de visión-lenguaje arbitran entre la percepción visual y el conocimiento aprendido. El hallazgo está estructuralmente desequilibrado de formas que importan para cualquier sistema de producción ejecutando consultas multimodales.

El artículo, "Vision-Default, Prior-Override," aplica patching de activación a través de flujos residuales, cabezas de atención individuales y subcapas de MLP en cinco puntos de control de modelo: Qwen-VL (3B, 7B), LLaVA-NeXT (7B) y PaliGemma (3B, 10B). El resultado central: el anclaje visual no requiere circuitería dedicada y sirve como la ruta predeterminada. El anclaje de conocimiento previo depende de un conjunto escaso de cabezas de atención — apenas 2,5–4,8% del total de cabezas — concentradas en la segunda mitad de la red.

Eliminar esas cabezas invierte 68–96% de las predicciones ancladas en priors a visuales. La eliminación inversa cambia solo 0,8–7,5% de las predicciones ancladas visualmente. El anclaje visual es robusto; la recuperación de conocimiento es frágil.

Las cabezas identificadas se dividen en dos clases funcionales. Las cabezas de enrutamiento modulan el flujo de información entre representaciones de imagen y texto. Las cabezas de escritura proyectan directamente tokens de respuesta en el flujo residual. Las subcapas de MLP amplifican pero no impulsan el enrutamiento. La implementación varía según la arquitectura: Qwen-VL y LLaVA-NeXT redistribuyen pesos de atención; PaliGemma enruta a través de diferencias de representación. Cualquier estrategia de mitigación es, por lo tanto, específica del modelo.

El fallo práctico surge en despliegues de agentes. Mostrado una fresa azul, un VLM la identifica correctamente como azul. Preguntado "¿qué color tiene normalmente una fresa?" — un prompt que explícitamente invita la recuperación de conocimiento — el mismo modelo responde "azul," anclado visualmente donde debería recuperar de la memoria. Este modo de fallo aparece en bucles de OCR-más-conocimiento-del-mundo: el modelo se ancla visualmente en un valor renderizado incluso cuando la pregunta pide el hecho canónico.

La asimetría produce dos restricciones arquitectónicas. Primero, el direccionamiento específico de las cabezas de escritura escasas es una ruta de mitigación plausible de bajo overhead. Los autores liberaron código en github.com/nlietzow/vision-default-prior-override. Segundo, el anclaje visual gana por defecto bajo cualquier ambigüedad. Los sistemas que necesitan respuestas confiables ancladas en conocimiento — búsquedas de interacciones de medicamentos, mapeo de esquema a valor, desambiguación de OCR — no pueden confiar únicamente en el circuito de conocimiento interno del modelo. La augmentación de recuperación que hace que la respuesta anclada en conocimiento esté visualmente presente en la entrada es estructuralmente más sólida que las estrategias de prompting que piden al modelo que ignore lo que ve.

El hallazgo se mantiene en familias de modelos y escalas (3B a 10B parámetros). La escala no es la solución. El mecanismo de enrutamiento difiere según la arquitectura. Pero la estructura asimétrica es consistente: el anclaje de priors es el modo frágil en cada modelo probado.

Si su stack de agentes mezcla evidencia visual con recuperación de conocimiento del mundo, asuma que la señal visual gana a menos que haya instrumentado específicamente qué cabezas realizan el enrutamiento de priors. Incluso entonces, trate el circuito de conocimiento como el componente más probable de fallar bajo ruido.

Sources

Prior-knowledge grounding depends on 2.5–4.8% of attention heads concentrated in the second half of the network; ablating them flips 68–96% of prior-grounded predictions to visually grounded answers while changing only 0.8–7.5% of visually grounded predictions
"visual grounding emerges by default, whereas prior grounding depends on a small set of causally necessary attention heads (2.5-4.8%) concentrated in the second half of the network... Ablating them flips predictions from knowledge-grounded to visually grounded answers in 68-96% of cases under prior-knowledge prompts, but changes only 0.8-7.5% of visually grounded predictions"
arxiv.org ↗
Identified heads decompose into routing heads that modulate information flow and writing heads that directly project answer tokens into the residual stream; MLP sublayers play an amplifier role
"The identified heads decompose into routing heads, which modulate information flow, and writing heads, which directly project answer tokens into the residual stream. This structure is consistent across model families and scales"
arxiv.org ↗
Tested across Qwen-VL 3B/7B, LLaVA-NeXT 7B, and PaliGemma 3B/10B; Qwen-VL and LLaVA-NeXT redistribute attention between image and text tokens while PaliGemma routes through differences in attended representations
"the routing implementation diverges across architectures: Qwen-VL and LLaVA-NeXT redistribute attention between image and text tokens, whereas PaliGemma routes through differences in the attended representations"
arxiv.org ↗
VLMs visually anchor even when prompted for prior-knowledge answers — shown a blue strawberry and asked 'what color is a strawberry usually?', the model still answers based on visual input
"when asked 'what color is a strawberry usually?', a question that should rely on prior knowledge rather than the image, the model frequently continues to respond based on the observed visual input"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Los modelos de visión-lenguaje enrutan el conocimiento a través de apenas el 2,5% de la red

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.