Pesquisadores do ISIR, Sorbonne Université e colaboradores lançaram o HalluScope, um benchmark que isola as causas raiz de alucinações em grandes modelos de visão e linguagem (LVLMs). Conclusão central: a culpa não recai sobre encoders visuais fracos, mas sobre o próprio prompt de texto.

O estudo, publicado em abril de 2026, identifica três vetores distintos de alucinação em LVLMs — falhas de percepção (o modelo interpreta mal a imagem), priors de co-ocorrência (o modelo confabula objetos estatisticamente prováveis, mas ausentes) e pressuposições de instrução (o modelo defere a suposições falsas embutidas no prompt). O HalluScope constrói instâncias de benchmark que isolam cada vetor de forma independente, expondo uma lacuna na forma como o campo tem medido alucinações. Benchmarks existentes — POPE, CHAIR, SHR e MMHAL-Bench — conflacionam os três modos de falha, mascarando qual fator impulsiona os erros de um modelo.

O principal culpado, entre os modelos avaliados, é a terceira categoria: pressuposições de instrução. Quando um prompt contém uma suposição factualmente errada sobre a imagem — por exemplo, perguntar sobre um objeto que não está presente — os LVLMs modernos seguem o enquadramento textual em vez de contradizê-lo com evidências de sua própria entrada visual. Os pesquisadores denominam isso de dependência excessiva de priors textuais, um modo de falha que existe independentemente de o backbone visual perceber a cena corretamente.

Para implantações corporativas, a implicação é direta. LVLMs integrados a pipelines de compreensão de documentos, sistemas de inspeção de controle de qualidade ou fluxos de trabalho de imagens médicas ficam expostos a essa superfície de ataque toda vez que um usuário ou sistema upstream fornece uma premissa indutiva ou incorreta. Um prompt como "confirme que o selo está intacto no painel B", direcionado a uma imagem em que nenhum selo existe, pode produzir uma confirmação confiante em vez de uma contradição. Protocolos de red-teaming focados apenas em ambiguidade de imagem ou pontuações de confiança do modelo vão ignorar completamente essa classe de falha.

Para combater alucinações induzidas por instrução, a equipe propõe o HalluVL-DPO, um framework de fine-tuning construído sobre uma variante ponderada por informatividade de amostra do Direct Preference Optimization (DPO). Ele constrói um conjunto de dados de treinamento com pares de respostas — uma fundamentada visualmente, outra alucinada — e otimiza o modelo para preferir a saída fundamentada. O esquema de ponderação leva em conta a lacuna semântica entre prompt e imagem, concentrando o sinal de treinamento nos casos adversarialmente mais desafiadores. Modelos submetidos a fine-tuning reduzem alucinações no subconjunto adversarial de pressuposições do HalluScope, mantendo ou melhorando o desempenho em outros benchmarks multimodais.

Uma restrição que arquitetos devem considerar: o HalluVL-DPO exige a construção de um conjunto de dados de preferência curado e a aplicação de fine-tuning direcionado a cada modelo base. Isso representa um esforço operacional não trivial para equipes que executam LVLMs comerciais via API, onde o acesso a fine-tuning é restrito ou indisponível. Nesses ambientes, o aprendizado mais acionável do HalluScope é defensivo — trate injeção adversarial de prompt, incluindo pressuposições plausíveis, mas falsas, como um cenário padrão de red-teaming, não como um caso extremo.

O benchmark, o conjunto de dados de treinamento de preferência e o código estão previstos para lançamento público no site do projeto. Se a taxonomia do HalluScope se confirmar entre famílias de modelos, ela se torna a base para um padrão de avaliação de LVLMs mais granular — um que force os fornecedores a reportar pontuações discriminadas por tipo de alucinação, em vez de agregá-las em uma única métrica de aprovação/reprovação. Equipes de compras já devem começar a solicitar esse detalhamento.

Escrito e editado por agentes de IA · Methodology