O Raciocínio Visual nos Melhores VLMs É Impulsionado pelo Text Backbone, Não pelos Encoders de Visão

Pesquisadores da Nanyang Technological University e do Tongyi Lab da Alibaba lançaram o CrossMath, um benchmark multimodal controlado que expõe uma falha estrutural na forma como os modelos de linguagem de visão são avaliados — e, por extensão, como são implantados. A conclusão central: adicionar entradas visuais a uma tarefa de raciocínio frequentemente faz os VLMs de ponta terem desempenho pior do que quando recebem apenas texto, sugerindo que as pontuações de benchmark atribuídas à capacidade multimodal são em grande parte impulsionadas pela força do text backbone.

O CrossMath é estruturado em torno de uma única restrição. Cada problema é renderizado em três formatos estritamente equivalentes — texto apenas, imagem apenas e imagem+texto — com informações idênticas relevantes para a tarefa nos três, verificadas por anotadores humanos. Essa paridade é o que os benchmarks anteriores consistentemente falharam em garantir. As avaliações existentes ou entrelaçam entradas visuais e textuais de forma tão estreita que nenhuma modalidade pode ser testada isoladamente, ou dependem de tarefas que podem ser resolvidas por reconhecimento de padrões superficiais sem raciocínio espacial ou geométrico genuíno. O CrossMath tem como alvo problemas que são intrinsecamente visuais em primeiro lugar: inferir valores ausentes em estruturas matemáticas que requerem raciocínio espacial e geométrico de múltiplas etapas.

O benchmark também controla por fatores visuais de confusão em quatro estilos de imagem: alta resolução original, sem bordas, fundo bege e fontes e cores alternativas. Essa variação é projetada para detectar modelos que se fixam em artefatos no nível da imagem — bordas, fontes, contraste de fundo — em vez do conteúdo matemático subjacente. Um modelo que se degrada significativamente entre os estilos não está raciocinando sobre a estrutura visual; está fazendo correspondência de padrões nas escolhas de renderização.

Os resultados expõem o que os autores denominam "lacuna de modalidade". Em todos os VLMs de ponta testados, o desempenho em entradas imagem+texto foi consistentemente inferior ao desempenho em entradas apenas texto. Isso significa que o encoder de visão e o projetor cross-modal — os componentes que deveriam fornecer compreensão visual — são passivos líquidos em tarefas rigorosas de raciocínio visual. Os modelos conduzem a inferência principalmente no espaço textual, com o caminho visual contribuindo com ruído em vez de sinal.

Para as equipes corporativas, isso tem implicações arquiteturais concretas. Qualquer implantação que use um VLM para análise de documentos, revisão de diagramas de engenharia ou resposta a perguntas visuais sobre dados estruturados provavelmente está recebendo alegações de capacidade infladas pelo desempenho do text backbone. O modelo pode parecer entender diagramas em condições de benchmark enquanto falha silenciosamente quando o contexto textual é removido ou ambíguo. O CrossMath oferece uma metodologia reproduzível para auditar isso antes de o modelo chegar à produção: execute a avaliação em três formatos, meça o delta de desempenho texto-para-imagem e trate essa lacuna como o limite superior da verdadeira capacidade de raciocínio visual.

O artigo também oferece um caminho de mitigação. Os autores selecionam um conjunto de treinamento CrossMath para fine-tuning supervisionado e relatam que o fine-tuning nele aumenta o desempenho de raciocínio nas três modalidades — texto apenas, imagem apenas e imagem+texto — com ganhos posteriores em duas tarefas gerais de raciocínio visual. O resultado sugere que a lacuna de modalidade não é um teto arquitetural fundamental, mas um artefato de dados de treinamento: os VLMs não são ensinados a raciocinar visualmente porque a maioria dos pipelines de treinamento não o exige.

O conjunto de dados do benchmark está disponível no Hugging Face em xuyige/CrossMath, e o código completo de avaliação está publicado no GitHub. O artigo foi escrito por Yige Xu, Yongjie Wang, Zizhuo Wu, Kaisong Song, Jun Lin e Zhiqi Shen, com os dois primeiros autores contribuindo igualmente.

O teste de estresse prático para qualquer aquisição corporativa de VLM agora é simples: se o modelo de um fornecedor não consegue fechar a lacuna entre suas pontuações de texto apenas e imagem+texto no CrossMath, a capacidade de raciocínio visual no datasheet não é o que aparecerá na produção.

Sources

CrossMath constructs each problem in text-only, image-only, and image+text formats with identical task-relevant information, verified by human annotators
"we construct each problem in text-only, image-only, and image+text formats guaranteeing identical task-relevant information, verified by human annotators"
arxiv.org ↗
Adding visual data (image+text) frequently degrades VLM performance compared to the text-only baseline
"VLMs excel with text-only inputs, whereas incorporating visual data (image+text) frequently degrades performance compared to the text-only baseline"
arxiv.org ↗
Current VLMs conduct reasoning primarily in the textual space, with limited genuine reliance on visual evidence
"current VLMs conduct reasoning primarily in the textual space, with limited genuine reliance on visual evidence"
arxiv.org ↗
CrossMath targets problems requiring multi-step spatial and geometric reasoning grounded entirely in the visual space
"Achieving optimal performance should heavily depend on reasoning over spatial, geometric, or physical dynamics"
arxiv.org ↗
CrossMath is evaluated across four image styles: original high-resolution, borderless, beige-background, and alternate fonts and colors
"Original Style | Without Border | With Significant Background | Change Font and Color"
github.com ↗
Fine-tuning on the CrossMath training set significantly boosts reasoning performance across all individual and joint modalities, with gains on two general visual reasoning tasks
"fine-tuning on this training set significantly boosts reasoning performance across all individual and joint modalities, while yielding robust gains on two general visual reasoning tasks"
arxiv.org ↗
The benchmark dataset is available on Hugging Face under xuyige/CrossMath and code is published on GitHub
"The testing data is in data/, which is also available in Huggingface's space with name xuyige/CrossMath"
github.com ↗
CrossMath was authored by researchers from Nanyang Technological University and Alibaba's Tongyi Lab, published April 17, 2026
"Yige Xu, Yongjie Wang, Zizhuo Wu, Kaisong Song, Jun Lin, Zhiqi Shen ... 1College of Computing and Data Science, Nanyang Technological University ... 3Tongyi Lab, Alibaba Group"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology