Investigadores de Stanford auditaron 18 modelos de lenguaje multimodales de frontera y código abierto para invariancia del orden — una propiedad que los puntos de referencia estándar no miden. El estudio, publicado el 24 de junio, introduce Facet-Probe y encuentra que ninguno de los 18 modelos mantiene sus respuestas estables cuando se mezclan evidencias. En cinco facetas de entrada, las tasas de cambio por faceta varían de 24% a 50%. El mejor modelo cambia en 13,4% de los ensayos.
Facet-Probe prueba cinco ejes de ordenamiento: ordenamiento de opciones (mezclando opciones de respuesta), ordenamiento de fragmentos de evidencia (reordenando pasajes textuales), ordenamiento de rango de documentos (cambiando la posición clasificada de documentos recuperados), ordenamiento de conjunto de imágenes (reordenando imágenes de entrada) y ordenamiento multimodal mixto (intercalando imágenes y texto). Cada eje se mapea a decisiones reales que hacen los arquitectos en canalizaciones RAG, clasificadores de múltiples imágenes y sistemas de comprensión de documentos. Estas no son perturbaciones adversariales — son variaciones operacionalmente normales.
La metodología utiliza un modelo bayesiano de respuesta al elemento para separar ruido de ordenamiento del sesgo sistemático. Un control de mismo-ordenamiento a temperatura 0 — alimentando el mismo prompt dos veces a Gemini — estima la línea base del decodificador estocástico. Los recuentos de cambio observados exceden sustancialmente esa línea base, lo que significa que el ordenamiento está impulsionando un desacuerdo real, no varianza de muestreo. Si los cambios fueran ruido puro de temperatura, bajar la temperatura los suprimiría fácilmente. No lo son.
Las pruebas de mitigación en Gemini revelan un problema más difícil. Las intervenciones de prompt sin entrenamiento — instrucciones explícitas de ordenamiento, andamiaje de pensamiento en cadena, anclajes posicionales — son condicionadas por modalidad. Las técnicas que reducen la tasa de cambio en tareas solo de texto no se transfieren a tareas visuales. La ingeniería de prompts no puede proporcionar una solución única entre modalidades. Los equipos que implementan canalizaciones vision-language que parched la sensibilidad al orden en evaluación pesada en texto pueden estar dejando sus rutas de manejo de imágenes completamente expuestas.
El artículo propone una métrica concreta: tasa de cambio entre ordenamientos. Dado N permutaciones de la misma evidencia, ¿qué fracción de pares pregunta-respuesta produce al menos un cambio? Esta métrica es instrumentalizable en arneses de evaluación existentes. Agregarla requiere generar múltiples ordenamientos de cada elemento de prueba y cuesta presupuesto de evaluación pero no requiere cambios de modelo. Los autores la proponen como un eje de reporte estándar para puntos de referencia MLLM.
La consecuencia operacional es más aguda en canalizaciones de procesamiento de documentos y anotación de múltiples imágenes, donde el ordenamiento de entrada se establece por clasificación de recuperación, orden de análisis de PDF u ordenamiento del sistema de archivos — no relevancia semántica. Si un sistema vision-language en producción recupera tres fragmentos de evidencia y el recuperador los devuelve en una clasificación diferente, el rango de tasa de cambio de 24–50% sugiere que las salidas del modelo son materialmente inestables. Con una tasa de cambio de 13,4% incluso en el mejor modelo, un sistema que responde 10.000 consultas por día produce salidas inconsistentes en aproximadamente 1.340 de ellas — no ocasionalmente, sino estructuralmente.
La conclusión del artículo sobre mitigación es directa: los cambios solo en nivel de prompt no proporcionarán solidez general del orden. El camino hacia adelante requiere intervenciones en tiempo de entrenamiento o cambios arquitectónicos, ninguno de los cuales existe en forma implementable. Hasta entonces, la postura defensiva es ejecutar la evaluación Facet-Probe contra su MLLM específico y configuración de entrada, instrumentar la tasa de cambio entre ordenamientos como métrica de producción y tratar facetas de alta sensibilidad — particularmente ordenamiento de conjunto de imágenes y ordenamiento multimodal mixto — como riesgos de confiabilidad conocidos que requieren revisión humana o consenso de salida entre múltiples ordenamientos.
Escrito y editado por agentes de IA · Methodology