Los Modelos Multimodales Cambian de Respuesta Cuando Cambia el Orden de las Evidencias

Investigadores de Stanford auditaron 18 modelos de lenguaje multimodales de frontera y código abierto para invariancia del orden — una propiedad que los puntos de referencia estándar no miden. El estudio, publicado el 24 de junio, introduce Facet-Probe y encuentra que ninguno de los 18 modelos mantiene sus respuestas estables cuando se mezclan evidencias. En cinco facetas de entrada, las tasas de cambio por faceta varían de 24% a 50%. El mejor modelo cambia en 13,4% de los ensayos.

Facet-Probe prueba cinco ejes de ordenamiento: ordenamiento de opciones (mezclando opciones de respuesta), ordenamiento de fragmentos de evidencia (reordenando pasajes textuales), ordenamiento de rango de documentos (cambiando la posición clasificada de documentos recuperados), ordenamiento de conjunto de imágenes (reordenando imágenes de entrada) y ordenamiento multimodal mixto (intercalando imágenes y texto). Cada eje se mapea a decisiones reales que hacen los arquitectos en canalizaciones RAG, clasificadores de múltiples imágenes y sistemas de comprensión de documentos. Estas no son perturbaciones adversariales — son variaciones operacionalmente normales.

La metodología utiliza un modelo bayesiano de respuesta al elemento para separar ruido de ordenamiento del sesgo sistemático. Un control de mismo-ordenamiento a temperatura 0 — alimentando el mismo prompt dos veces a Gemini — estima la línea base del decodificador estocástico. Los recuentos de cambio observados exceden sustancialmente esa línea base, lo que significa que el ordenamiento está impulsionando un desacuerdo real, no varianza de muestreo. Si los cambios fueran ruido puro de temperatura, bajar la temperatura los suprimiría fácilmente. No lo son.

Las pruebas de mitigación en Gemini revelan un problema más difícil. Las intervenciones de prompt sin entrenamiento — instrucciones explícitas de ordenamiento, andamiaje de pensamiento en cadena, anclajes posicionales — son condicionadas por modalidad. Las técnicas que reducen la tasa de cambio en tareas solo de texto no se transfieren a tareas visuales. La ingeniería de prompts no puede proporcionar una solución única entre modalidades. Los equipos que implementan canalizaciones vision-language que parched la sensibilidad al orden en evaluación pesada en texto pueden estar dejando sus rutas de manejo de imágenes completamente expuestas.

El artículo propone una métrica concreta: tasa de cambio entre ordenamientos. Dado N permutaciones de la misma evidencia, ¿qué fracción de pares pregunta-respuesta produce al menos un cambio? Esta métrica es instrumentalizable en arneses de evaluación existentes. Agregarla requiere generar múltiples ordenamientos de cada elemento de prueba y cuesta presupuesto de evaluación pero no requiere cambios de modelo. Los autores la proponen como un eje de reporte estándar para puntos de referencia MLLM.

La consecuencia operacional es más aguda en canalizaciones de procesamiento de documentos y anotación de múltiples imágenes, donde el ordenamiento de entrada se establece por clasificación de recuperación, orden de análisis de PDF u ordenamiento del sistema de archivos — no relevancia semántica. Si un sistema vision-language en producción recupera tres fragmentos de evidencia y el recuperador los devuelve en una clasificación diferente, el rango de tasa de cambio de 24–50% sugiere que las salidas del modelo son materialmente inestables. Con una tasa de cambio de 13,4% incluso en el mejor modelo, un sistema que responde 10.000 consultas por día produce salidas inconsistentes en aproximadamente 1.340 de ellas — no ocasionalmente, sino estructuralmente.

La conclusión del artículo sobre mitigación es directa: los cambios solo en nivel de prompt no proporcionarán solidez general del orden. El camino hacia adelante requiere intervenciones en tiempo de entrenamiento o cambios arquitectónicos, ninguno de los cuales existe en forma implementable. Hasta entonces, la postura defensiva es ejecutar la evaluación Facet-Probe contra su MLLM específico y configuración de entrada, instrumentar la tasa de cambio entre ordenamientos como métrica de producción y tratar facetas de alta sensibilidad — particularmente ordenamiento de conjunto de imágenes y ordenamiento multimodal mixto — como riesgos de confiabilidad conocidos que requieren revisión humana o consenso de salida entre múltiples ordenamientos.

Sources

None of the 18 MLLMs audited are order-invariant; per-facet panel-mean flip rates span 24–50%
"We find that none of the 18 MLLMs we audit are order-invariant: screened per-facet panel-mean flip rates span 24-50%."
arxiv.org ↗
The best-performing model still flips on 13.4% of trials
"Capability predicts but does not eliminate flips; the best model still flips on 13.4% of trials."
arxiv.org ↗
Facet-Probe covers five ordering facets: option, evidence-chunk, document-rank, image-set, and mixed-modality
"We introduce Facet-Probe, a five-facet audit (option, evidence-chunk, document-rank, image-set, and mixed-modality ordering) of 18 frontier and open-weight MLLMs."
arxiv.org ↗
A Bayesian item-response model separates ordering noise from per-facet bias; a same-ordering control at temperature 0 estimates the decoder-stochastic floor
"A Bayesian item-response model separates ordering noise from per-facet bias, and a same-ordering control estimates the decoder-stochastic floor for observed flips."
arxiv.org ↗
Gemini same-ordering control at temperature 0 shows substantial ordering excess over the decoder-noise floor
"A Gemini same-ordering control at temperature 0 estimates a substantial ordering excess over a same-input decoder-noise floor in verified cells."
arxiv.org ↗
Training-free prompt mitigations are modality-conditional and do not transfer from text to visual reasoning
"In our Gemini mitigation tests, training-free prompt changes are modality-conditional and do not transfer from text to visual reasoning."
arxiv.org ↗
Prompt-level mitigation alone is unlikely to provide general order robustness; future work requires training-time or architectural approaches
"These results suggest that prompt-level mitigation alone is unlikely to provide general order robustness, motivating future work on training-time and architectural approaches."
arxiv.org ↗
The paper proposes cross-ordering flip rate as a standard reporting axis for MLLM benchmarks
"We propose cross-ordering flip rate as a standard reporting axis for MLLMs."
arxiv.org ↗
Standard benchmarks score each item on one canonical ordering and miss whether order-irrelevant shuffling changes the answer
"Standard benchmarks for multimodal large language models (MLLMs) score each item on one canonical ordering and miss whether order-irrelevant shuffling changes the answer, a baseline reliability property called for by emerging AI evaluation guidelines."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Los Modelos Multimodales Cambian de Respuesta Cuando Cambia el Orden de las Evidencias

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.