Modelos de Visão-Linguagem Sem Vantagem em Alinhamento Apenas de Texto

Um estudo de neuroimagem em três pares de modelos de linguagem e visão-língua descobriu que a pré-treinamento multimodal não melhora universalmente a alinhamento humano durante a leitura de texto apenas, sugerindo que o custo adicional pode não render ganhos representacionais em tarefas de linguagem abstrata. Pesquisadores do Instituto McGovern da MIT, da City University of Hong Kong e da Chongqing University avaliaram os modelos em relação a gravações de fMRI de todo o córtex e saquias sincronizadas de rastreamento ocular a partir de conjuntos de dados de leitura natural humana, alimentando os modelos apenas com texto no tempo de inferência para isolar o efeito do histórico de treinamento visual.

O design experimental do estudo é uma avanço significativo metodológico. Os autores utilizaram pares bem emparelhados da mesma linhagem arquitetônica, variando apenas a presença de pré-treinamento multimodal, em vez de comparar famílias de modelos dispares onde diferenças na arquitetura, contagem de parâmetros, corpus de treinamento ou regime de pós-treinamento poderiam confundir a atribuição. Ao reter visual durante a inferência, a equipe atribuiu efeitos especificamente ao histórico de aprendizado do modelo em vez de à fusão cross-modal online. A alinhamento cerebral foi avaliado em respostas fMRI a nível de voxel em todo o córtex e alinhamento comportamental foi medido por meio de padrões de movimento ocular, fornecendo um benchmark de sinal duplo mais granular que a precisão típica de tarefas downstream.

O artigo no arXiv relata que não há vantagem consistente de VLM. Os autores descobrem que as representações internas da linguagem permanecem o fator chave para modelar o processamento de texto humano; a vantagem de VLM emerge mais seleivamente quando as frases contêm um conteúdo semântico visual mais forte - linguagem concreta e imaginativa que pode envolver áreas de associação visual, com evidências convergentes de ambas as alinhamentos fMRI e movimento ocular. Isso se alinha com a literatura anterior que mostra que a escalonamento de LLMs de 774 milhões para 65 bilhões de parâmetros melhora o ajuste de fMRI e rastreamento ocular e que modelos multimodais excelem apenas quando o enraizamento visual é relevante. Os autores propõem seu trabalho como um framework controlado in silico para desentranhar esses fatores.

Este é um artigo de medição de laboratório sem evidência de produção, e os autores não fornecem métricas de serviço - nenhum número de throughput, preço por token ou latência p99. Em vez disso, eles oferecem um sinal de seleção de modelo. Em um pipeline de texto apenas - RAG sobre documentos, resumo, classificação ou seguimento de instruções sem imagens - a variação de VLM de uma família dada não produz representações internas mais humanas do que seu homólogo LLM. O extra de computação e pegada de memória dos pesos multimodais não adquire nenhum benefício de alinhamento a menos que a entrada seja rica em semântica visual concreta.

Para equipes de plataforma, o desafio é a generalização. O estudo mantém a arquitetura, escala e mistura de dados constantes, condições que raramente se mantêm na seleção comercial, onde um VLM e LLM "comparables" podem diferir em receitas de pós-treinamento, comprimento de contexto ou conjuntos de dados de ajuste de instrução. Os autores reconhecem que esses fatores historicamente complicaram estimativas de alinhamento cerebral e permanecem como confusos quando os engenheiros navegam entre catálogos de API. Outra lacuna é a salto da alinhamento neural para utilidade prática: a correlação de todo o córtex fMRI é uma métrica intermediária intrigante, mas não é uma substituição para a precisão da tarefa de ponta a ponta ou classificações de preferência humana.

A evidência não é uniforme. Bavaresco et al. relatam que VLMs superam modelos de linguagem apenas em alinhamento fMRI com palavras de conceito isoladas do conjunto de dados Pereira - 180 conceitos discretos apresentados com imagens ou frases, não o estudo contínuo de leitura natural Wu et al. O conjunto de Bavaresco também depende de arquiteturas mais antigas do estilo codificador como LXMERT e IDEFICS2 em vez de pares gerativos modernos bem emparelhados, e os autores observam que apenas alguns desses VLMs aprendem conceitos realmente mais humanos enquanto outros são apenas sensíveis ao contexto do tempo de inferência. Essa discrepância importa para equipes de plataforma: em pipelines de estilo de leitura natural - RAG, resumo, classificação, seguimento de instruções de longa duração - o prêmio multimodal não adquire benefício de alinhamento comprovado, mas cargas de trabalho centradas em conceitos enraizados isolados ou entrada multimodal real pode ainda favorecer um VLM.

Sources

Multimodal pretraining may not confer a uniform, global advantage in human alignment during natural reading; language-internal representations remain the key factor for modeling human text processing
"Our findings demonstrate that multimodal pretraining may not confer a uniform, global advantage in human alignment during natural reading, indicating that language-internal representations remain the key factor for modeling human text processing."
arxiv.org ↗
VLM advantage emerges selectively when sentences contain stronger visual semantic content, with converging evidence from both fMRI and eye-movement alignments
"The VLM advantage could emerge more selectively when sentences contain stronger visual semantic content, with converging evidence from both fMRI and eye-movement alignments."
arxiv.org ↗
Study used three tightly matched LLM/VLM pairs under identical text-only inputs to isolate the effect of multimodal training history from online visual input or cross-modal fusion
"We compare three LLM/VLM pairs under identical text-only inputs, allowing us to isolate the effect of multimodal training history from online visual input or cross-modal fusion."
arxiv.org ↗
Authors are affiliated with MIT's McGovern Institute for Brain Research, City University of Hong Kong, and Chongqing University
"Correspondence: Zitong Lu (zitonglu@mit.edu). McGovern Institute for Brain Research, Massachusetts Institute of Technology."
arxiv.org ↗
Scaling LLMs from 774M to 65B parameters improves fMRI and eye-tracking alignment, while instruction tuning adds no benefit
"We show that as the model size increases from 774M to 65B, the alignment with human eye movement and fMRI activity patterns also significantly improves, adhering to a scaling law. By contrast, instruction tuning does not affect this alignment."
nature.com ↗
Bavaresco et al. find VLMs outperform language-only counterparts in both experimental conditions (picture and sentence context) for isolated concept word fMRI alignment
"Our results reveal that VLMs outperform the language-only counterparts in both experimental conditions."
arxiv.org ↗
Only some VLMs (LXMERT, IDEFICS2) show brain alignment that stems from genuinely learning more human-like concepts during pretraining; others are highly sensitive to inference-time context
"Controlled ablation studies show that only for some VLMs, such as LXMERT and IDEFICS2, brain alignment stems from genuinely learning more human-like concepts during pretraining, while others are highly sensitive to the context provided at inference."
arxiv.org ↗
Vision-language encoders are more brain-aligned than more recent, generative VLMs
"vision-language encoders are more brain-aligned than more recent, generative VLMs"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Modelos de Visão-Linguagem Sem Vantagem em Alinhamento Apenas de Texto

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.