Gandikota y Bau de la Universidad del Noroeste han identificado un conjunto disperso de jefes de atención en el bastidor lingüístico de Qwen3-VL que, al redirigirse en tiempo de inferencia, pueden guiar la generación a una región objetivo arbitraria con un 83,1% de precisión. Los investigadores utilizaron tiras cómicas de seis paneles como un banco de pruebas controlado para calcular una puntuación de mirada para cada uno de los 1.152 jefes de atención de Qwen3-VL-8B, determinando si la matriz de atención 6x6 se desplaza diagonalmente cuando cambia el panel consultado. Descubrieron que solo las capas 20-28 giran fiablemente la respuesta del modelo al añadir una dirección de lectura inversa, confirmando que la enrutamiento flexible a nivel de panel vive en los jefes de atención en lugar de en sesgos amplios a nivel de capa.

La intervención es precisa; redirigiendo los 100 jefes de mirada superiores, se fuerza al modelo a describir cualquier panel elegido cuando se hace la misma pregunta. Sin dirección, el modelo por defecto al primer panel, y la misma edición aplicada a jefes aleatorios falla, mientras que aplicarla a todos los jefes destruye la generación. Este efecto se generaliza a imágenes naturales de COCO, se repite en tamaños de Qwen3-VL desde 2B hasta 32B de parámetros y se ejecuta en tiempo real. Una demostración en navegador carga Qwen3-VL-2B completamente a través de WebGPU y, usando solo diez jefes redirigidos, dirige la salida al panel cómico sobre el que se desliza el cursor, incluso en medio de una oración, con texto transmitido teñido por el panel que lo impulsa. No se involucran afinaciones o actualizaciones de peso; las ediciones son operaciones de máscara de atención puras en tiempo de inferencia.

Sin embargo, el estudio informa que algunas familias de VLM codificadores congelados no muestran un conjunto comparable de jefes de mirada, por lo que los equipos que ejecutan esas arquitecturas no deben esperar que el mecanismo exista. Incluso en modelos compatibles, la dirección es frágil: intervenir en todos los 1.152 jefes destruye la calidad de la generación, lo que significa que la clasificación automática de jefes es obligatoria y la malidentificación es costosa. Los sistemas de producción también deben abordar la brecha entre las coordenadas de píxeles orientadas al usuario y la cuadrícula de tokens de parches del modelo; las tiras cómicas de seis paneles proporcionan límites claros, pero las fotografías de libre forma carecen de esa estructura narrativa espacial, y el 83,1% de precisión del panel no garantiza una segmentación precisa en escenas del mundo real desordenado.

El hallazgo se alinea con el trabajo paralelo de enrutamiento en tiempo de inferencia de CG-VLM, que demostró que las alucinaciones de objetos a menudo son impulsadas por la "inercial textual" —la atención de capa media se desplaza desde tokens de imagen hacia prioridades lingüísticas— y mostró que reorientar la atención sin reentrenamiento puede recuperar la fundamentación en los benchmarks POPE y CHAIR. Juntos, los papeles sugieren que la fundamentación visual en VLM de producción se mantiene mediante subcircuitos específicos y dispersos que son medibles y corregibles en vuelo, convirtiendo las alucinaciones de un problema de reentrenamiento del modelo en un problema de enrutamiento en tiempo de inferencia.

Los arquitectos deben considerar el diagnóstico: algunas pasadas adelante con avisos visuales controlados pueden puntuar cada jefe por seguimiento de región, exponiendo una capa de dirección en tiempo de inferencia dirigida que no cuesta nada desplegar, siempre que su arquitectura exponga estos jefes y verifiquen que la cuadrícula de parches del tokenizador de imágenes se mapee limpiamente a las regiones semánticas que necesitan controlar.

Escrito y editado por agentes de IA · Methodology