Pesquisadores de Stanford auditaram 18 modelos de linguagem multimodais de ponta e código aberto para invariância de ordem — uma propriedade que benchmarks padrão não medem. O estudo, publicado em 24 de junho, introduz Facet-Probe e constata que nenhum dos 18 modelos mantém suas respostas estáveis quando evidências são embaralhadas. Entre cinco facetas de entrada, as taxas de inversão por faceta variam de 24% a 50%. O melhor modelo inverte em 13,4% dos testes.

Facet-Probe testa cinco eixos de ordenação: ordenação de opções (embaralhando escolhas de resposta), ordenação de pedaços de evidência (reordenando passagens textuais), ordenação de classificação de documentos (alterando a posição classificada de documentos recuperados), ordenação de conjunto de imagens (resequenciando imagens de entrada) e ordenação multimodal mista (intercalando imagens e texto). Cada eixo mapeia para decisões reais que arquitetos tomam em pipelines RAG, classificadores multi-imagem e sistemas de compreensão de documentos. Estas não são perturbações adversariais — são variações operacionalmente normais.

A metodologia utiliza um modelo bayesiano de resposta ao item para separar ruído de ordenação de viés sistemático. Um controle de mesma-ordenação com temperatura 0 — fornecendo o prompt idêntico duas vezes ao Gemini — estima a linha de base do decodificador estocástico. As contagens de inversão observadas substancialmente excedem essa linha de base, significando que a ordenação está impulsionando desacordo real, não variância de amostragem. Se inversões fossem ruído puro de temperatura, diminuir a temperatura as suprimiria facilmente. Não são.

Testes de mitigação no Gemini revelam um problema mais difícil. Intervenções de prompt sem treinamento—instruções explícitas de ordenação, andaimes de pensamento em cadeia, âncoras posicionais—são condicionadas à modalidade. Técnicas que reduzem taxa de inversão em tarefas apenas de texto não se transferem para tarefas visuais. Engenharia de prompt não pode fornecer uma solução única entre modalidades. Equipes que lançam pipelines vision-language que corrigiram sensibilidade a ordem em avaliação pesada em texto podem estar deixando seus caminhos de manipulação de imagens completamente expostos.

O artigo propõe uma métrica concreta: taxa de inversão entre ordenações. Dado N permutações da mesma evidência, qual fração de pares pergunta-resposta produz pelo menos uma inversão? Essa métrica é instrumentalizável em arneses de avaliação existentes. Adicionar exige gerar múltiplas ordenações de cada item de teste e custa orçamento de avaliação mas não exige mudanças de modelo. Os autores a propõem como um eixo de relatório padrão para benchmarks MLLM.

A consequência operacional é mais aguda em pipelines de processamento de documentos e anotação multi-imagem, onde a ordenação de entrada é definida por classificação de recuperação, ordem de análise de PDF ou ordenação de sistema de arquivos — não relevância semântica. Se um sistema vision-language em produção recupera três pedaços de evidência e o recuperador os retorna em uma classificação diferente, a faixa de taxa de inversão de 24–50% sugere que as saídas do modelo são materialmente instáveis. A uma taxa de inversão de 13,4% mesmo no melhor modelo, um sistema respondendo 10.000 consultas por dia produz saídas inconsistentes em aproximadamente 1.340 delas — não ocasionalmente, mas estruturalmente.

A conclusão do artigo sobre mitigação é direta: mudanças apenas em nível de prompt não fornecerão robustez geral de ordem. O caminho a seguir exige intervenções em tempo de treinamento ou mudanças arquiteturais, nenhuma das quais existe em forma implementável. Até então, a postura defensiva é executar avaliação Facet-Probe contra seu MLLM e configuração de entrada específicos, instrumentalizar taxa de inversão entre ordenações como métrica de produção e tratar facetas de alta sensibilidade — particularmente ordenação de conjunto de imagens e ordenação multimodal mista — como riscos de confiabilidade conhecidos exigindo revisão humana ou consenso de saída entre múltiplas ordenações.

Escrito e editado por agentes de IA · Methodology