El Razonamiento Visual en los Mejores VLMs Es Impulsado por el Text Backbone, No por los Encoders de Visión

Investigadores de la Nanyang Technological University y del Tongyi Lab de Alibaba han publicado CrossMath, un benchmark multimodal controlado que expone una falla estructural en la forma en que se evalúan los modelos de lenguaje visual — y, por extensión, cómo se despliegan. El hallazgo central: agregar entradas visuales a una tarea de razonamiento frecuentemente hace que los VLMs de última generación rindan peor que cuando solo reciben texto, lo que sugiere que las puntuaciones de benchmark atribuidas a la capacidad multimodal están en gran medida impulsadas por la fortaleza del text backbone.

CrossMath está diseñado en torno a una única restricción. Cada problema se renderiza en tres formatos estrictamente equivalentes — solo texto, solo imagen e imagen+texto — con información idéntica relevante para la tarea en los tres, verificada por anotadores humanos. Esa paridad es lo que los benchmarks anteriores han fallado consistentemente en garantizar. Las evaluaciones existentes o entrelazan las entradas visuales y textuales tan estrechamente que ninguna modalidad puede probarse de forma aislada, o dependen de tareas que pueden resolverse mediante reconocimiento de patrones superficial sin razonamiento espacial o geométrico genuino. CrossMath apunta a problemas que son intrínsecamente visuales en primer lugar: inferir valores faltantes en estructuras matemáticas que requieren razonamiento espacial y geométrico de múltiples pasos.

El benchmark también controla los factores de confusión visuales en cuatro estilos de imagen: alta resolución original, sin bordes, fondo beige y fuentes y colores alternativos. Esta variación está diseñada para detectar modelos que se enganchan a artefactos a nivel de imagen — bordes, fuentes, contraste de fondo — en lugar del contenido matemático subyacente. Un modelo que se degrada significativamente entre estilos no está razonando sobre la estructura visual; está haciendo correspondencia de patrones en las decisiones de renderización.

Los resultados exponen lo que los autores denominan una "brecha de modalidad". En todos los VLMs de última generación evaluados, el rendimiento en entradas imagen+texto fue consistentemente inferior al rendimiento en entradas solo texto. Eso significa que el encoder de visión y el proyector cross-modal — los componentes que se supone deben proporcionar comprensión visual — son pasivos netos en tareas rigurosas de razonamiento visual. Los modelos realizan la inferencia principalmente en el espacio textual, con la vía visual contribuyendo ruido en lugar de señal.

Para los equipos empresariales, esto tiene implicaciones arquitectónicas concretas. Cualquier despliegue que use un VLM para análisis de documentos, revisión de diagramas de ingeniería o respuesta a preguntas visuales sobre datos estructurados probablemente está recibiendo afirmaciones de capacidad infladas por el rendimiento del text backbone. El modelo puede parecer que entiende los diagramas en condiciones de benchmark mientras falla silenciosamente cuando el contexto textual se elimina o es ambiguo. CrossMath ofrece una metodología reproducible para auditar esto antes de que un modelo llegue a producción: ejecutar la evaluación en tres formatos, medir el delta de rendimiento texto-a-imagen y tratar esa brecha como el límite superior de la verdadera capacidad de razonamiento visual.

El artículo también ofrece un camino de mitigación. Los autores elaboran un conjunto de entrenamiento CrossMath para fine-tuning supervisado e informan que el fine-tuning en él mejora el rendimiento de razonamiento en las tres modalidades — solo texto, solo imagen e imagen+texto — con ganancias posteriores en dos tareas generales de razonamiento visual. El resultado sugiere que la brecha de modalidad no es un techo arquitectónico fundamental sino un artefacto de los datos de entrenamiento: los VLMs no son entrenados para razonar visualmente porque la mayoría de los pipelines de entrenamiento no lo requieren.

El conjunto de datos del benchmark está disponible en Hugging Face en xuyige/CrossMath, y el código completo de evaluación está publicado en GitHub. El artículo fue escrito por Yige Xu, Yongjie Wang, Zizhuo Wu, Kaisong Song, Jun Lin y Zhiqi Shen, con los dos primeros autores contribuyendo por igual.

La prueba de estrés práctica para cualquier adquisición empresarial de VLM es ahora sencilla: si el modelo de un proveedor no puede cerrar la brecha entre sus puntuaciones de solo texto e imagen+texto en CrossMath, la capacidad de razonamiento visual en la hoja de datos no es lo que aparecerá en producción.

Sources

CrossMath constructs each problem in text-only, image-only, and image+text formats with identical task-relevant information, verified by human annotators
"we construct each problem in text-only, image-only, and image+text formats guaranteeing identical task-relevant information, verified by human annotators"
arxiv.org ↗
Adding visual data (image+text) frequently degrades VLM performance compared to the text-only baseline
"VLMs excel with text-only inputs, whereas incorporating visual data (image+text) frequently degrades performance compared to the text-only baseline"
arxiv.org ↗
Current VLMs conduct reasoning primarily in the textual space, with limited genuine reliance on visual evidence
"current VLMs conduct reasoning primarily in the textual space, with limited genuine reliance on visual evidence"
arxiv.org ↗
CrossMath targets problems requiring multi-step spatial and geometric reasoning grounded entirely in the visual space
"Achieving optimal performance should heavily depend on reasoning over spatial, geometric, or physical dynamics"
arxiv.org ↗
CrossMath is evaluated across four image styles: original high-resolution, borderless, beige-background, and alternate fonts and colors
"Original Style | Without Border | With Significant Background | Change Font and Color"
github.com ↗
Fine-tuning on the CrossMath training set significantly boosts reasoning performance across all individual and joint modalities, with gains on two general visual reasoning tasks
"fine-tuning on this training set significantly boosts reasoning performance across all individual and joint modalities, while yielding robust gains on two general visual reasoning tasks"
arxiv.org ↗
The benchmark dataset is available on Hugging Face under xuyige/CrossMath and code is published on GitHub
"The testing data is in data/, which is also available in Huggingface's space with name xuyige/CrossMath"
github.com ↗
CrossMath was authored by researchers from Nanyang Technological University and Alibaba's Tongyi Lab, published April 17, 2026
"Yige Xu, Yongjie Wang, Zizhuo Wu, Kaisong Song, Jun Lin, Zhiqi Shen ... 1College of Computing and Data Science, Nanyang Technological University ... 3Tongyi Lab, Alibaba Group"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology