Falsas Suposições no Prompt Superam Falhas de Visão em Novo Estudo de Alucinação em LVLMs

Pesquisadores do ISIR, Sorbonne Université e colaboradores lançaram o HalluScope, um benchmark que isola as causas raiz de alucinações em grandes modelos de visão e linguagem (LVLMs). Conclusão central: a culpa não recai sobre encoders visuais fracos, mas sobre o próprio prompt de texto.

O estudo, publicado em abril de 2026, identifica três vetores distintos de alucinação em LVLMs — falhas de percepção (o modelo interpreta mal a imagem), priors de co-ocorrência (o modelo confabula objetos estatisticamente prováveis, mas ausentes) e pressuposições de instrução (o modelo defere a suposições falsas embutidas no prompt). O HalluScope constrói instâncias de benchmark que isolam cada vetor de forma independente, expondo uma lacuna na forma como o campo tem medido alucinações. Benchmarks existentes — POPE, CHAIR, SHR e MMHAL-Bench — conflacionam os três modos de falha, mascarando qual fator impulsiona os erros de um modelo.

O principal culpado, entre os modelos avaliados, é a terceira categoria: pressuposições de instrução. Quando um prompt contém uma suposição factualmente errada sobre a imagem — por exemplo, perguntar sobre um objeto que não está presente — os LVLMs modernos seguem o enquadramento textual em vez de contradizê-lo com evidências de sua própria entrada visual. Os pesquisadores denominam isso de dependência excessiva de priors textuais, um modo de falha que existe independentemente de o backbone visual perceber a cena corretamente.

Para implantações corporativas, a implicação é direta. LVLMs integrados a pipelines de compreensão de documentos, sistemas de inspeção de controle de qualidade ou fluxos de trabalho de imagens médicas ficam expostos a essa superfície de ataque toda vez que um usuário ou sistema upstream fornece uma premissa indutiva ou incorreta. Um prompt como "confirme que o selo está intacto no painel B", direcionado a uma imagem em que nenhum selo existe, pode produzir uma confirmação confiante em vez de uma contradição. Protocolos de red-teaming focados apenas em ambiguidade de imagem ou pontuações de confiança do modelo vão ignorar completamente essa classe de falha.

Para combater alucinações induzidas por instrução, a equipe propõe o HalluVL-DPO, um framework de fine-tuning construído sobre uma variante ponderada por informatividade de amostra do Direct Preference Optimization (DPO). Ele constrói um conjunto de dados de treinamento com pares de respostas — uma fundamentada visualmente, outra alucinada — e otimiza o modelo para preferir a saída fundamentada. O esquema de ponderação leva em conta a lacuna semântica entre prompt e imagem, concentrando o sinal de treinamento nos casos adversarialmente mais desafiadores. Modelos submetidos a fine-tuning reduzem alucinações no subconjunto adversarial de pressuposições do HalluScope, mantendo ou melhorando o desempenho em outros benchmarks multimodais.

Uma restrição que arquitetos devem considerar: o HalluVL-DPO exige a construção de um conjunto de dados de preferência curado e a aplicação de fine-tuning direcionado a cada modelo base. Isso representa um esforço operacional não trivial para equipes que executam LVLMs comerciais via API, onde o acesso a fine-tuning é restrito ou indisponível. Nesses ambientes, o aprendizado mais acionável do HalluScope é defensivo — trate injeção adversarial de prompt, incluindo pressuposições plausíveis, mas falsas, como um cenário padrão de red-teaming, não como um caso extremo.

O benchmark, o conjunto de dados de treinamento de preferência e o código estão previstos para lançamento público no site do projeto. Se a taxonomia do HalluScope se confirmar entre famílias de modelos, ela se torna a base para um padrão de avaliação de LVLMs mais granular — um que force os fornecedores a reportar pontuações discriminadas por tipo de alucinação, em vez de agregá-las em uma única métrica de aprovação/reprovação. Equipes de compras já devem começar a solicitar esse detalhamento.

Sources

HalluScope benchmark published by researchers at ISIR, Sorbonne Université in April 2026
"Pegah Khayatan, Jayneel Parekh, Arnaud Dapogny, Mustafa Shukor, Alasdair Newson, Matthieu Cord ... PUBLISHED: 2026-04-23"
arxiv.org ↗
HalluScope isolates three hallucination vectors: perception failures, co-occurrence priors, and instruction presuppositions
"Perception Failures: Can the model correctly see what is in the image? Co-occurrence Priors: Does the model hallucinate statistically likely but absent objects? Instruction Presuppositions: Does the model follow false assumptions introduced by the prompt?"
pegah-kh.github.io ↗
Existing benchmarks POPE, CHAIR, SHR, and MMHAL-Bench do not distinguish between the three hallucination failure modes
"existing evaluation benchmarks including POPE, CHAIR, SHR, and MMHAL-Bench do not distinguish between hallucinations originating from perception failures, learned object co-occurrence priors, or presuppositions introduced by the instruction itself"
pegah-kh.github.io ↗
Hallucinations predominantly stem from over-reliance on textual instruction presuppositions rather than visual perception limitations
"Our analysis indicates that hallucinations largely stem from excessive reliance on textual priors and background knowledge, especially information introduced through textual instructions."
arxiv.org ↗
LVLMs are more prone to hallucinations when given a wrong assumption in the textual prompt
"LVLMs are more prone to hallucinations when given a wrong assumption in the textual prompt."
pegah-kh.github.io ↗
HalluVL-DPO is a fine-tuning framework using a sample-informativeness weighted variant of Direct Preference Optimization
"we propose HalluVL-DPO, a fine-tuning framework based on a sample-informativeness weighted variant of Direct Preference Optimization (DPO)"
pegah-kh.github.io ↗
HalluVL-DPO reduces hallucinations on the adversarial presupposition subset while maintaining or improving performance on other benchmarks
"We are able to reduce hallucinations when a wrong assumption is made about the existence of a non-existent object in the image (adversarial presupposition subset of HalluScope), while also improving or staying competitive on other multimodal benchmarks."
pegah-kh.github.io ↗
Benchmark, preference training dataset, and code to be publicly released at the project site
"we will publicly release our evaluation benchmark, preference training dataset, and code at https://pegah-kh.github.io/projects/prompts-override-vision/"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology