Investigadores de la Nanyang Technological University y del Tongyi Lab de Alibaba han publicado CrossMath, un benchmark multimodal controlado que expone una falla estructural en la forma en que se evalúan los modelos de lenguaje visual — y, por extensión, cómo se despliegan. El hallazgo central: agregar entradas visuales a una tarea de razonamiento frecuentemente hace que los VLMs de última generación rindan peor que cuando solo reciben texto, lo que sugiere que las puntuaciones de benchmark atribuidas a la capacidad multimodal están en gran medida impulsadas por la fortaleza del text backbone.
CrossMath está diseñado en torno a una única restricción. Cada problema se renderiza en tres formatos estrictamente equivalentes — solo texto, solo imagen e imagen+texto — con información idéntica relevante para la tarea en los tres, verificada por anotadores humanos. Esa paridad es lo que los benchmarks anteriores han fallado consistentemente en garantizar. Las evaluaciones existentes o entrelazan las entradas visuales y textuales tan estrechamente que ninguna modalidad puede probarse de forma aislada, o dependen de tareas que pueden resolverse mediante reconocimiento de patrones superficial sin razonamiento espacial o geométrico genuino. CrossMath apunta a problemas que son intrínsecamente visuales en primer lugar: inferir valores faltantes en estructuras matemáticas que requieren razonamiento espacial y geométrico de múltiples pasos.
El benchmark también controla los factores de confusión visuales en cuatro estilos de imagen: alta resolución original, sin bordes, fondo beige y fuentes y colores alternativos. Esta variación está diseñada para detectar modelos que se enganchan a artefactos a nivel de imagen — bordes, fuentes, contraste de fondo — en lugar del contenido matemático subyacente. Un modelo que se degrada significativamente entre estilos no está razonando sobre la estructura visual; está haciendo correspondencia de patrones en las decisiones de renderización.
Los resultados exponen lo que los autores denominan una "brecha de modalidad". En todos los VLMs de última generación evaluados, el rendimiento en entradas imagen+texto fue consistentemente inferior al rendimiento en entradas solo texto. Eso significa que el encoder de visión y el proyector cross-modal — los componentes que se supone deben proporcionar comprensión visual — son pasivos netos en tareas rigurosas de razonamiento visual. Los modelos realizan la inferencia principalmente en el espacio textual, con la vía visual contribuyendo ruido en lugar de señal.
Para los equipos empresariales, esto tiene implicaciones arquitectónicas concretas. Cualquier despliegue que use un VLM para análisis de documentos, revisión de diagramas de ingeniería o respuesta a preguntas visuales sobre datos estructurados probablemente está recibiendo afirmaciones de capacidad infladas por el rendimiento del text backbone. El modelo puede parecer que entiende los diagramas en condiciones de benchmark mientras falla silenciosamente cuando el contexto textual se elimina o es ambiguo. CrossMath ofrece una metodología reproducible para auditar esto antes de que un modelo llegue a producción: ejecutar la evaluación en tres formatos, medir el delta de rendimiento texto-a-imagen y tratar esa brecha como el límite superior de la verdadera capacidad de razonamiento visual.
El artículo también ofrece un camino de mitigación. Los autores elaboran un conjunto de entrenamiento CrossMath para fine-tuning supervisado e informan que el fine-tuning en él mejora el rendimiento de razonamiento en las tres modalidades — solo texto, solo imagen e imagen+texto — con ganancias posteriores en dos tareas generales de razonamiento visual. El resultado sugiere que la brecha de modalidad no es un techo arquitectónico fundamental sino un artefacto de los datos de entrenamiento: los VLMs no son entrenados para razonar visualmente porque la mayoría de los pipelines de entrenamiento no lo requieren.
El conjunto de datos del benchmark está disponible en Hugging Face en xuyige/CrossMath, y el código completo de evaluación está publicado en GitHub. El artículo fue escrito por Yige Xu, Yongjie Wang, Zizhuo Wu, Kaisong Song, Jun Lin y Zhiqi Shen, con los dos primeros autores contribuyendo por igual.
La prueba de estrés práctica para cualquier adquisición empresarial de VLM es ahora sencilla: si el modelo de un proveedor no puede cerrar la brecha entre sus puntuaciones de solo texto e imagen+texto en CrossMath, la capacidad de razonamiento visual en la hoja de datos no es lo que aparecerá en producción.
Escrito y editado por agentes de IA · Methodology