Jefes de Atención Dispersa Redirigen Modelos de Visión-Lenguaje con Precisión del 83%

Un estudio mecanístico revela jefes de atención específicos en los bastidores lingüísticos de VLM que rastrean regiones de imagen durante la generación de descripciones. Los arquitectos pueden usar esta perspectiva para depurar alucinaciones y dirigir la atención en sistemas de visión de producción.

Gandikota y Bau de la Universidad del Noroeste han identificado un conjunto disperso de jefes de atención en el bastidor lingüístico de Qwen3-VL que, al redirigirse en tiempo de inferencia, pueden guiar la generación a una región objetivo arbitraria con un 83,1% de precisión. Los investigadores utilizaron tiras cómicas de seis paneles como un banco de pruebas controlado para calcular una puntuación de mirada para cada uno de los 1.152 jefes de atención de Qwen3-VL-8B, determinando si la matriz de atención 6x6 se desplaza diagonalmente cuando cambia el panel consultado. Descubrieron que solo las capas 20-28 giran fiablemente la respuesta del modelo al añadir una dirección de lectura inversa, confirmando que la enrutamiento flexible a nivel de panel vive en los jefes de atención en lugar de en sesgos amplios a nivel de capa.

La intervención es precisa; redirigiendo los 100 jefes de mirada superiores, se fuerza al modelo a describir cualquier panel elegido cuando se hace la misma pregunta. Sin dirección, el modelo por defecto al primer panel, y la misma edición aplicada a jefes aleatorios falla, mientras que aplicarla a todos los jefes destruye la generación. Este efecto se generaliza a imágenes naturales de COCO, se repite en tamaños de Qwen3-VL desde 2B hasta 32B de parámetros y se ejecuta en tiempo real. Una demostración en navegador carga Qwen3-VL-2B completamente a través de WebGPU y, usando solo diez jefes redirigidos, dirige la salida al panel cómico sobre el que se desliza el cursor, incluso en medio de una oración, con texto transmitido teñido por el panel que lo impulsa. No se involucran afinaciones o actualizaciones de peso; las ediciones son operaciones de máscara de atención puras en tiempo de inferencia.

Sin embargo, el estudio informa que algunas familias de VLM codificadores congelados no muestran un conjunto comparable de jefes de mirada, por lo que los equipos que ejecutan esas arquitecturas no deben esperar que el mecanismo exista. Incluso en modelos compatibles, la dirección es frágil: intervenir en todos los 1.152 jefes destruye la calidad de la generación, lo que significa que la clasificación automática de jefes es obligatoria y la malidentificación es costosa. Los sistemas de producción también deben abordar la brecha entre las coordenadas de píxeles orientadas al usuario y la cuadrícula de tokens de parches del modelo; las tiras cómicas de seis paneles proporcionan límites claros, pero las fotografías de libre forma carecen de esa estructura narrativa espacial, y el 83,1% de precisión del panel no garantiza una segmentación precisa en escenas del mundo real desordenado.

El hallazgo se alinea con el trabajo paralelo de enrutamiento en tiempo de inferencia de CG-VLM, que demostró que las alucinaciones de objetos a menudo son impulsadas por la "inercial textual" —la atención de capa media se desplaza desde tokens de imagen hacia prioridades lingüísticas— y mostró que reorientar la atención sin reentrenamiento puede recuperar la fundamentación en los benchmarks POPE y CHAIR. Juntos, los papeles sugieren que la fundamentación visual en VLM de producción se mantiene mediante subcircuitos específicos y dispersos que son medibles y corregibles en vuelo, convirtiendo las alucinaciones de un problema de reentrenamiento del modelo en un problema de enrutamiento en tiempo de inferencia.

Los arquitectos deben considerar el diagnóstico: algunas pasadas adelante con avisos visuales controlados pueden puntuar cada jefe por seguimiento de región, exponiendo una capa de dirección en tiempo de inferencia dirigida que no cuesta nada desplegar, siempre que su arquitectura exponga estos jefes y verifiquen que la cuadrícula de parches del tokenizador de imágenes se mapee limpiamente a las regiones semánticas que necesitan controlar.

Sources

Top-100 gaze heads (fewer than 9% of all heads) steer the model's answer to any chosen comic panel at 83.1% accuracy with a single attention-mask intervention, no retraining required
"A single attention-mask intervention on the top-100 gaze heads, fewer than 9% of all heads, steers the model's answer to any chosen comic panel at 83.1% accuracy, while the same intervention on random heads fails to redirect the answer, and intervening on all heads destroys generation."
arxiv.org ↗
Qwen3-VL-8B has 1,152 attention heads total; visual reading order concentrates in layers 20–28
"The model we study most, Qwen3-VL-8B, has 1,152 of them. Only layers 20–28 flip the model's answer from the first panel (green) to the reverse-reading target (red); the same direction does nothing anywhere else in the network."
gaze.baulab.info ↗
The mechanism recurs across model sizes from 2B to 32B parameters; some frozen-encoder families show no comparable gaze-head set
"The mechanism further recurs across model sizes from 2B to 32B parameters and across other VLM architectures, although some frozen-encoder families show no comparable head set."
arxiv.org ↗
Steering generalizes from comic strips to natural COCO images
"Beyond comics, the same intervention redirects answers to chosen regions in natural COCO images."
arxiv.org ↗
Browser demo runs Qwen3-VL-2B entirely via WebGPU using only 10 redirected heads; hovering over panels steers generation mid-sentence
"Qwen3-VL-2B runs entirely in your browser; your cursor becomes the model's gaze. Hover over any panel and the model starts writing about it. Move your cursor mid-sentence to re-steer it."
gaze.baulab.info ↗
Object hallucinations in VLMs are driven by text inertia — attention drifting from visual tokens toward linguistic priors mid-generation
"Large Vision-Language Models (VLMs) often exhibit text inertia, where attention drifts from visual evidence toward linguistic priors, resulting in object hallucinations."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Jefes de Atención Dispersa Redirigen Modelos de Visión-Lenguaje con Precisión del 83%

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.