Un nuevo artículo de la Universidad de Tübingen, Harvard y UT Austin identifica los primeros mecanismos causales a nivel de componente detrás de cómo los modelos de visión-lenguaje arbitran entre la percepción visual y el conocimiento aprendido. El hallazgo está estructuralmente desequilibrado de formas que importan para cualquier sistema de producción ejecutando consultas multimodales.

El artículo, "Vision-Default, Prior-Override," aplica patching de activación a través de flujos residuales, cabezas de atención individuales y subcapas de MLP en cinco puntos de control de modelo: Qwen-VL (3B, 7B), LLaVA-NeXT (7B) y PaliGemma (3B, 10B). El resultado central: el anclaje visual no requiere circuitería dedicada y sirve como la ruta predeterminada. El anclaje de conocimiento previo depende de un conjunto escaso de cabezas de atención — apenas 2,5–4,8% del total de cabezas — concentradas en la segunda mitad de la red.

Eliminar esas cabezas invierte 68–96% de las predicciones ancladas en priors a visuales. La eliminación inversa cambia solo 0,8–7,5% de las predicciones ancladas visualmente. El anclaje visual es robusto; la recuperación de conocimiento es frágil.

Las cabezas identificadas se dividen en dos clases funcionales. Las cabezas de enrutamiento modulan el flujo de información entre representaciones de imagen y texto. Las cabezas de escritura proyectan directamente tokens de respuesta en el flujo residual. Las subcapas de MLP amplifican pero no impulsan el enrutamiento. La implementación varía según la arquitectura: Qwen-VL y LLaVA-NeXT redistribuyen pesos de atención; PaliGemma enruta a través de diferencias de representación. Cualquier estrategia de mitigación es, por lo tanto, específica del modelo.

El fallo práctico surge en despliegues de agentes. Mostrado una fresa azul, un VLM la identifica correctamente como azul. Preguntado "¿qué color tiene normalmente una fresa?" — un prompt que explícitamente invita la recuperación de conocimiento — el mismo modelo responde "azul," anclado visualmente donde debería recuperar de la memoria. Este modo de fallo aparece en bucles de OCR-más-conocimiento-del-mundo: el modelo se ancla visualmente en un valor renderizado incluso cuando la pregunta pide el hecho canónico.

La asimetría produce dos restricciones arquitectónicas. Primero, el direccionamiento específico de las cabezas de escritura escasas es una ruta de mitigación plausible de bajo overhead. Los autores liberaron código en github.com/nlietzow/vision-default-prior-override. Segundo, el anclaje visual gana por defecto bajo cualquier ambigüedad. Los sistemas que necesitan respuestas confiables ancladas en conocimiento — búsquedas de interacciones de medicamentos, mapeo de esquema a valor, desambiguación de OCR — no pueden confiar únicamente en el circuito de conocimiento interno del modelo. La augmentación de recuperación que hace que la respuesta anclada en conocimiento esté visualmente presente en la entrada es estructuralmente más sólida que las estrategias de prompting que piden al modelo que ignore lo que ve.

El hallazgo se mantiene en familias de modelos y escalas (3B a 10B parámetros). La escala no es la solución. El mecanismo de enrutamiento difiere según la arquitectura. Pero la estructura asimétrica es consistente: el anclaje de priors es el modo frágil en cada modelo probado.

Si su stack de agentes mezcla evidencia visual con recuperación de conocimiento del mundo, asuma que la señal visual gana a menos que haya instrumentado específicamente qué cabezas realizan el enrutamiento de priors. Incluso entonces, trate el circuito de conocimiento como el componente más probable de fallar bajo ruido.

Escrito y editado por agentes de IA · Methodology