Pesquisadores da Nanyang Technological University e do Tongyi Lab da Alibaba lançaram o CrossMath, um benchmark multimodal controlado que expõe uma falha estrutural na forma como os modelos de linguagem de visão são avaliados — e, por extensão, como são implantados. A conclusão central: adicionar entradas visuais a uma tarefa de raciocínio frequentemente faz os VLMs de ponta terem desempenho pior do que quando recebem apenas texto, sugerindo que as pontuações de benchmark atribuídas à capacidade multimodal são em grande parte impulsionadas pela força do text backbone.
O CrossMath é estruturado em torno de uma única restrição. Cada problema é renderizado em três formatos estritamente equivalentes — texto apenas, imagem apenas e imagem+texto — com informações idênticas relevantes para a tarefa nos três, verificadas por anotadores humanos. Essa paridade é o que os benchmarks anteriores consistentemente falharam em garantir. As avaliações existentes ou entrelaçam entradas visuais e textuais de forma tão estreita que nenhuma modalidade pode ser testada isoladamente, ou dependem de tarefas que podem ser resolvidas por reconhecimento de padrões superficiais sem raciocínio espacial ou geométrico genuíno. O CrossMath tem como alvo problemas que são intrinsecamente visuais em primeiro lugar: inferir valores ausentes em estruturas matemáticas que requerem raciocínio espacial e geométrico de múltiplas etapas.
O benchmark também controla por fatores visuais de confusão em quatro estilos de imagem: alta resolução original, sem bordas, fundo bege e fontes e cores alternativas. Essa variação é projetada para detectar modelos que se fixam em artefatos no nível da imagem — bordas, fontes, contraste de fundo — em vez do conteúdo matemático subjacente. Um modelo que se degrada significativamente entre os estilos não está raciocinando sobre a estrutura visual; está fazendo correspondência de padrões nas escolhas de renderização.
Os resultados expõem o que os autores denominam "lacuna de modalidade". Em todos os VLMs de ponta testados, o desempenho em entradas imagem+texto foi consistentemente inferior ao desempenho em entradas apenas texto. Isso significa que o encoder de visão e o projetor cross-modal — os componentes que deveriam fornecer compreensão visual — são passivos líquidos em tarefas rigorosas de raciocínio visual. Os modelos conduzem a inferência principalmente no espaço textual, com o caminho visual contribuindo com ruído em vez de sinal.
Para as equipes corporativas, isso tem implicações arquiteturais concretas. Qualquer implantação que use um VLM para análise de documentos, revisão de diagramas de engenharia ou resposta a perguntas visuais sobre dados estruturados provavelmente está recebendo alegações de capacidade infladas pelo desempenho do text backbone. O modelo pode parecer entender diagramas em condições de benchmark enquanto falha silenciosamente quando o contexto textual é removido ou ambíguo. O CrossMath oferece uma metodologia reproduzível para auditar isso antes de o modelo chegar à produção: execute a avaliação em três formatos, meça o delta de desempenho texto-para-imagem e trate essa lacuna como o limite superior da verdadeira capacidade de raciocínio visual.
O artigo também oferece um caminho de mitigação. Os autores selecionam um conjunto de treinamento CrossMath para fine-tuning supervisionado e relatam que o fine-tuning nele aumenta o desempenho de raciocínio nas três modalidades — texto apenas, imagem apenas e imagem+texto — com ganhos posteriores em duas tarefas gerais de raciocínio visual. O resultado sugere que a lacuna de modalidade não é um teto arquitetural fundamental, mas um artefato de dados de treinamento: os VLMs não são ensinados a raciocinar visualmente porque a maioria dos pipelines de treinamento não o exige.
O conjunto de dados do benchmark está disponível no Hugging Face em xuyige/CrossMath, e o código completo de avaliação está publicado no GitHub. O artigo foi escrito por Yige Xu, Yongjie Wang, Zizhuo Wu, Kaisong Song, Jun Lin e Zhiqi Shen, com os dois primeiros autores contribuindo igualmente.
O teste de estresse prático para qualquer aquisição corporativa de VLM agora é simples: se o modelo de um fornecedor não consegue fechar a lacuna entre suas pontuações de texto apenas e imagem+texto no CrossMath, a capacidade de raciocínio visual no datasheet não é o que aparecerá na produção.
Escrito e editado por agentes de IA · Methodology