Modelos de Visión-Lenguaje Sin Ventaja en Alineación de Texto Solamente

Un estudio de neuroimagenología en tres pares de modelos de lenguaje y visión-lenguaje encontró que el preentrenamiento multimodal no mejora universalmente el alineamiento humano durante la lectura de texto solamente, sugiriendo que el costo adicional puede no generar ganancias representacionales en tareas de lenguaje abstracto. Investigadores del Instituto McGovern de MIT, la Universidad de la Ciudad de Hong Kong y la Universidad de Chongqing evaluaron los modelos frente a grabaciones de fMRI de todo el córtex y saccades de seguimiento ocular sincronizados de conjuntos de datos de lectura natural humana, alimentando a los modelos con texto solamente en el tiempo de inferencia para aislar el efecto del historial de entrenamiento visual.

El diseño experimental del estudio es una avance metodológico significativo. Los autores utilizaron pares estrechamente emparejados de la misma línea arquitectónica, variando solo la presencia de preentrenamiento multimodal, en lugar de comparar familias de modelos dispares donde las diferencias en arquitectura, recuento de parámetros, corpus de entrenamiento o régimen de postentrenamiento podrían confundir la atribución. Al retener la entrada visual durante la inferencia, el equipo atribuyó los efectos específicamente al historial de aprendizaje del modelo en lugar de a la fusión intermodal en línea. El alineamiento cerebral se puntuó en respuestas fMRI a nivel de voxel en todo el córtex, y el alineamiento comportamental se midió a través de patrones de movimiento ocular, proporcionando una referencia dual de señal más granulada que la precisión típica de tareas secundarias.

El documento de arXiv informa que no hay ventaja consistente de VLM. Los autores encuentran que las representaciones internas del lenguaje siguen siendo el factor clave para modelar el procesamiento de texto humano; la ventaja de VLM emerge más selectivamente cuando las oraciones contienen un contenido semántico visual más fuerte - lenguaje concreto e imaginativo que podría involucrar áreas de asociación visual, con evidencia convergente de ambos alineamientos fMRI y movimientos oculares. Esto se alinea con la literatura previa que muestra que escalar LLM de 774 millones a 65 mil millones de parámetros mejora el ajuste de fMRI y seguimiento ocular, y que los modelos multimodales sobresalzan solo cuando el enraizamiento visual es relevante. Los autores proponen su trabajo como un marco de control silicio para desentraer estos factores.

Este es un documento de medición de laboratorio sin evidencia de producción, y los autores no proporcionan métricas de servicio - no hay números de rendimiento, precios por token o latencia p99. En cambio, ofrecen una señal de selección de modelos. En una tubería de texto solamente - RAG sobre documentos, resúmenes, clasificación o seguimiento de instrucciones sin imágenes - la variante VLM de una familia dada no produce representaciones internas más humanas que su homólogo LLM. El costo extra de cómputo y huella de memoria de pesos multimodales no compra ningún beneficio de alineación a menos que la entrada esté rica en semánticas visuales concretas.

Para los equipos de plataforma, el desafío es la generalización. El estudio mantiene constante la arquitectura, escala y mezcla de datos, condiciones que rara vez se mantienen en la selección comercial, donde un VLM y LLM "comparables" pueden diferir en recetas de postentrenamiento, longitud de contexto o conjuntos de datos de ajuste de instrucciones. Los autores reconocen que estos factores han complicado históricamente las estimaciones de alineación cerebral y siguen siendo confundidos cuando los ingenieros revisan catálogos de API. Otra brecha es el salto de la alineación neural a la utilidad práctica: la correlación fMRI de todo el córtex es una métrica intermedia interesante, pero no es un sustituto de la precisión de tareas de extremo a extremo o las clasificaciones de preferencia humana.

La evidencia no es uniforme. Bavaresco et al. informan que los VLM superan a los modelos de lenguaje solamente en la alineación fMRI con palabras de concepto aislado del conjunto de datos Pereira - 180 conceptos discretos presentados con imágenes o oraciones, no el estudio continuo de lectura natural de Wu et al. El conjunto de Bavaresco también se basa en arquitecturas de codificador más antiguas como LXMERT e IDEFICS2 en lugar de pares generativos modernos estrechamente emparejados, y los autores señalan que solo algunos de esos VLM aprenden conceptos más humanos genuinamente mientras que otros son solo sensibles al contexto de tiempo de inferencia. Ese desajuste importa para los equipos de plataforma: en tuberías de estilo de lectura natural - RAG, resúmenes, clasificación, seguimiento de instrucciones de larga duración - el premio multimodal no compra ningún beneficio de alineación probado, pero las cargas de trabajo centradas en conceptos aislados enraizados o entrada multimodal real pueden seguir favoreciendo a un VLM.

Sources

Multimodal pretraining may not confer a uniform, global advantage in human alignment during natural reading; language-internal representations remain the key factor for modeling human text processing
"Our findings demonstrate that multimodal pretraining may not confer a uniform, global advantage in human alignment during natural reading, indicating that language-internal representations remain the key factor for modeling human text processing."
arxiv.org ↗
VLM advantage emerges selectively when sentences contain stronger visual semantic content, with converging evidence from both fMRI and eye-movement alignments
"The VLM advantage could emerge more selectively when sentences contain stronger visual semantic content, with converging evidence from both fMRI and eye-movement alignments."
arxiv.org ↗
Study used three tightly matched LLM/VLM pairs under identical text-only inputs to isolate the effect of multimodal training history from online visual input or cross-modal fusion
"We compare three LLM/VLM pairs under identical text-only inputs, allowing us to isolate the effect of multimodal training history from online visual input or cross-modal fusion."
arxiv.org ↗
Authors are affiliated with MIT's McGovern Institute for Brain Research, City University of Hong Kong, and Chongqing University
"Correspondence: Zitong Lu (zitonglu@mit.edu). McGovern Institute for Brain Research, Massachusetts Institute of Technology."
arxiv.org ↗
Scaling LLMs from 774M to 65B parameters improves fMRI and eye-tracking alignment, while instruction tuning adds no benefit
"We show that as the model size increases from 774M to 65B, the alignment with human eye movement and fMRI activity patterns also significantly improves, adhering to a scaling law. By contrast, instruction tuning does not affect this alignment."
nature.com ↗
Bavaresco et al. find VLMs outperform language-only counterparts in both experimental conditions (picture and sentence context) for isolated concept word fMRI alignment
"Our results reveal that VLMs outperform the language-only counterparts in both experimental conditions."
arxiv.org ↗
Only some VLMs (LXMERT, IDEFICS2) show brain alignment that stems from genuinely learning more human-like concepts during pretraining; others are highly sensitive to inference-time context
"Controlled ablation studies show that only for some VLMs, such as LXMERT and IDEFICS2, brain alignment stems from genuinely learning more human-like concepts during pretraining, while others are highly sensitive to the context provided at inference."
arxiv.org ↗
Vision-language encoders are more brain-aligned than more recent, generative VLMs
"vision-language encoders are more brain-aligned than more recent, generative VLMs"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Modelos de Visión-Lenguaje Sin Ventaja en Alineación de Texto Solamente

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.