Investigadores del Shanghai AI Laboratory y cinco universidades colaboradoras han cuantificado un defecto estructural en cada modelo de visión-lenguaje autorregressivo y publicado una corrección que eleva la precisión promedio de benchmark en 4.8 puntos porcentuales en Qwen3-VL-8B mientras añade solo 0.32% al conteo de parámetros.
El defecto, etiquetado como Dilución de Señal Visual, surge de cómo funcionan la mecánica de atención en LVLMs basados en transformadores. Los tokens visuales se inyectan una sola vez al inicio de la ventana de contexto y nunca se reponen. Conforme el modelo genera texto, la función de partición de atención se expande con cada nuevo token, redistribuyendo la masa de probabilidad entre un conjunto creciente. Los tokens visuales fijos reciben participaciones de atención progresivamente menores. El paper describe esto como decaimiento asintótico hacia un Equilibrio de Baja Atención. Para empresas que ejecutan comprensión de documentos, imagen-a-reporte o pipelines de QA visual multiturno, la precisión se degrada silenciosamente conforme crece la longitud de la respuesta.
La corrección propuesta, Memoria Visual Persistente (PVM), es un adaptador cuello de botella insertado como rama paralela junto a la red feed-forward en tres capas de transformador—capas 8, 16 y 24 en el modelo 8B; capas 5, 11 y 17 en el 4B. Dentro de cada rama PVM, estados ocultos de texto ejecutan cross-attention cuyos keys y values están restringidos exclusivamente a los embeddings visuales originales y fijos. Un gate aprendible inicializado a cero controla la razón de mezcla de retorno, permitiendo que el módulo comience inerte y se active solo según sea necesario. La dimensión latente de PVM es 512. Parámetros totales añadidos en el backbone 8B: 27.92M, u 0.32% de overhead.
El entrenamiento tiene dos etapas. Una pasada SFT en 526,000 muestras visualmente centradas filtradas del OpenMMReasoner-SFT-874K alinea el nuevo módulo a recuperación visual. Una pasada de refinamiento GRPO en 3,600 consultas de razonamiento complejo del MMK12, ThinkLite-VL-hard, ViRL39K y We-Math2.0-Pro afila el modelo en tareas que requieren anclaje visual sostenido a través de largas cadenas de razonamiento. Durante SFT, el codificador de visión, backbone de lenguaje y proyector se congelan; solo los parámetros de PVM se entrenan. Durante GRPO, el backbone de lenguaje y PVM se entrenan conjuntamente. Las ejecuciones a escala completa utilizaron ocho GPUs NVIDIA H200 con 141 GB VRAM cada una, con DeepSpeed ZeRO-2 para SFT y ZeRO-3 para GRPO.
Comparados en ocho evaluaciones—MMMU, MMBench-CN, MMBench-EN, MMStar, MMT, MathVerse, MathVision e AI2D—los resultados se mantienen en ambas escalas. Qwen3-VL-8B-Instruct obtiene 66.7% de precisión promedio; PVM-8B después de SFT alcanza 70.6%; PVM-8B después de SFT+GRPO alcanza 71.5%, una ganancia de 4.8 puntos. En 4B, la línea base es 64.0%; PVM-4B SFT+GRPO alcanza 68.4%, una ganancia de 4.4 puntos. La mejora es mayor en tareas de razonamiento complejo que requieren referencia visual repetida mientras producen largas cadenas de texto deductivo.
El diseño ofrece dos ventajas para arquitectos de IA empresarial. Primero, la rama PVM es estructuralmente independiente del flujo autorregresivo—no inyecta tokens visuales en la secuencia de texto, evitando las disrupciones de coherencia lingüística que introdujeron esquemas de re-inyección visual previos. Segundo, el overhead de parámetros es lo suficientemente pequeño para que el retrofit de un despliegue Qwen3-VL existente no cambie materialmente la huella de memoria de inferencia o requiera re-cuantización.
El paper tiene limitaciones reales. Todos los experimentos están en Qwen3-VL; la generalización a LLaVA, InternVL u otras familias de modelo no está demostrada. No aparecen números de latencia de inferencia—la rama de cross-attention paralela añade FLOPs en cada pasada directa, y el overhead de reloj de pared en hardware de producción es desconocido. El repositorio GitHub proporciona código de modelo y puntos de entrada de entrenamiento pero no checkpoints preentrenados, así que los equipos deben ejecutar el pipeline completo de dos etapas desde cero.
Para cualquier organización que ejecute flujos de trabajo visuales de contexto largo en modelos de código abierto y atribuya caídas de precisión a calidad de datos o ingeniería de prompts, PVM es un argumento de 28 millones de parámetros de que la causa raíz está en la mecánica de atención—y ahora es parcheable.
Escrito y editado por agentes de IA · Methodology