Modelos Multimodais Trocam Respostas Quando a Ordem de Evidências Muda

Pesquisadores de Stanford auditaram 18 modelos de linguagem multimodais de ponta e código aberto para invariância de ordem — uma propriedade que benchmarks padrão não medem. O estudo, publicado em 24 de junho, introduz Facet-Probe e constata que nenhum dos 18 modelos mantém suas respostas estáveis quando evidências são embaralhadas. Entre cinco facetas de entrada, as taxas de inversão por faceta variam de 24% a 50%. O melhor modelo inverte em 13,4% dos testes.

Facet-Probe testa cinco eixos de ordenação: ordenação de opções (embaralhando escolhas de resposta), ordenação de pedaços de evidência (reordenando passagens textuais), ordenação de classificação de documentos (alterando a posição classificada de documentos recuperados), ordenação de conjunto de imagens (resequenciando imagens de entrada) e ordenação multimodal mista (intercalando imagens e texto). Cada eixo mapeia para decisões reais que arquitetos tomam em pipelines RAG, classificadores multi-imagem e sistemas de compreensão de documentos. Estas não são perturbações adversariais — são variações operacionalmente normais.

A metodologia utiliza um modelo bayesiano de resposta ao item para separar ruído de ordenação de viés sistemático. Um controle de mesma-ordenação com temperatura 0 — fornecendo o prompt idêntico duas vezes ao Gemini — estima a linha de base do decodificador estocástico. As contagens de inversão observadas substancialmente excedem essa linha de base, significando que a ordenação está impulsionando desacordo real, não variância de amostragem. Se inversões fossem ruído puro de temperatura, diminuir a temperatura as suprimiria facilmente. Não são.

Testes de mitigação no Gemini revelam um problema mais difícil. Intervenções de prompt sem treinamento—instruções explícitas de ordenação, andaimes de pensamento em cadeia, âncoras posicionais—são condicionadas à modalidade. Técnicas que reduzem taxa de inversão em tarefas apenas de texto não se transferem para tarefas visuais. Engenharia de prompt não pode fornecer uma solução única entre modalidades. Equipes que lançam pipelines vision-language que corrigiram sensibilidade a ordem em avaliação pesada em texto podem estar deixando seus caminhos de manipulação de imagens completamente expostos.

O artigo propõe uma métrica concreta: taxa de inversão entre ordenações. Dado N permutações da mesma evidência, qual fração de pares pergunta-resposta produz pelo menos uma inversão? Essa métrica é instrumentalizável em arneses de avaliação existentes. Adicionar exige gerar múltiplas ordenações de cada item de teste e custa orçamento de avaliação mas não exige mudanças de modelo. Os autores a propõem como um eixo de relatório padrão para benchmarks MLLM.

A consequência operacional é mais aguda em pipelines de processamento de documentos e anotação multi-imagem, onde a ordenação de entrada é definida por classificação de recuperação, ordem de análise de PDF ou ordenação de sistema de arquivos — não relevância semântica. Se um sistema vision-language em produção recupera três pedaços de evidência e o recuperador os retorna em uma classificação diferente, a faixa de taxa de inversão de 24–50% sugere que as saídas do modelo são materialmente instáveis. A uma taxa de inversão de 13,4% mesmo no melhor modelo, um sistema respondendo 10.000 consultas por dia produz saídas inconsistentes em aproximadamente 1.340 delas — não ocasionalmente, mas estruturalmente.

A conclusão do artigo sobre mitigação é direta: mudanças apenas em nível de prompt não fornecerão robustez geral de ordem. O caminho a seguir exige intervenções em tempo de treinamento ou mudanças arquiteturais, nenhuma das quais existe em forma implementável. Até então, a postura defensiva é executar avaliação Facet-Probe contra seu MLLM e configuração de entrada específicos, instrumentalizar taxa de inversão entre ordenações como métrica de produção e tratar facetas de alta sensibilidade — particularmente ordenação de conjunto de imagens e ordenação multimodal mista — como riscos de confiabilidade conhecidos exigindo revisão humana ou consenso de saída entre múltiplas ordenações.

Sources

None of the 18 MLLMs audited are order-invariant; per-facet panel-mean flip rates span 24–50%
"We find that none of the 18 MLLMs we audit are order-invariant: screened per-facet panel-mean flip rates span 24-50%."
arxiv.org ↗
The best-performing model still flips on 13.4% of trials
"Capability predicts but does not eliminate flips; the best model still flips on 13.4% of trials."
arxiv.org ↗
Facet-Probe covers five ordering facets: option, evidence-chunk, document-rank, image-set, and mixed-modality
"We introduce Facet-Probe, a five-facet audit (option, evidence-chunk, document-rank, image-set, and mixed-modality ordering) of 18 frontier and open-weight MLLMs."
arxiv.org ↗
A Bayesian item-response model separates ordering noise from per-facet bias; a same-ordering control at temperature 0 estimates the decoder-stochastic floor
"A Bayesian item-response model separates ordering noise from per-facet bias, and a same-ordering control estimates the decoder-stochastic floor for observed flips."
arxiv.org ↗
Gemini same-ordering control at temperature 0 shows substantial ordering excess over the decoder-noise floor
"A Gemini same-ordering control at temperature 0 estimates a substantial ordering excess over a same-input decoder-noise floor in verified cells."
arxiv.org ↗
Training-free prompt mitigations are modality-conditional and do not transfer from text to visual reasoning
"In our Gemini mitigation tests, training-free prompt changes are modality-conditional and do not transfer from text to visual reasoning."
arxiv.org ↗
Prompt-level mitigation alone is unlikely to provide general order robustness; future work requires training-time or architectural approaches
"These results suggest that prompt-level mitigation alone is unlikely to provide general order robustness, motivating future work on training-time and architectural approaches."
arxiv.org ↗
The paper proposes cross-ordering flip rate as a standard reporting axis for MLLM benchmarks
"We propose cross-ordering flip rate as a standard reporting axis for MLLMs."
arxiv.org ↗
Standard benchmarks score each item on one canonical ordering and miss whether order-irrelevant shuffling changes the answer
"Standard benchmarks for multimodal large language models (MLLMs) score each item on one canonical ordering and miss whether order-irrelevant shuffling changes the answer, a baseline reliability property called for by emerging AI evaluation guidelines."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Modelos Multimodais Trocam Respostas Quando a Ordem de Evidências Muda

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.