Las Falsas Suposiciones en el Prompt Superan los Fallos de Visión en Nuevo Estudio de Alucinación en LVLMs

Investigadores del ISIR, Sorbonne Université y colaboradores han publicado HalluScope, un benchmark que aísla las causas raíz de las alucinaciones en los grandes modelos de visión y lenguaje (LVLMs). Su hallazgo central: la responsabilidad no recae sobre encoders visuales débiles, sino sobre el propio prompt de texto.

El estudio, publicado en abril de 2026, identifica tres vectores distintos de alucinación en los LVLMs — fallos de percepción (el modelo interpreta mal la imagen), priors de co-ocurrencia (el modelo confabula objetos estadísticamente probables pero ausentes) y presuposiciones de instrucción (el modelo cede ante suposiciones falsas embebidas en el prompt). HalluScope construye instancias de benchmark que aíslan cada vector de forma independiente, exponiendo una brecha en la manera en que el campo ha medido las alucinaciones. Los benchmarks existentes — POPE, CHAIR, SHR y MMHAL-Bench — fusionan los tres modos de fallo, ocultando qué factor impulsa los errores de un modelo.

El principal culpable, entre los modelos evaluados, es la tercera categoría: las presuposiciones de instrucción. Cuando un prompt contiene una suposición factualmente incorrecta sobre la imagen — por ejemplo, preguntar sobre un objeto que no está presente — los LVLMs modernos siguen el marco textual en lugar de contradecirlo con evidencia de su propia entrada visual. Los investigadores denominan esto dependencia excesiva en priors textuales, un modo de fallo que existe con independencia de si el backbone visual percibe correctamente la escena.

Para los despliegues empresariales, la implicación es directa. Los LVLMs integrados en pipelines de comprensión de documentos, sistemas de inspección de control de calidad o flujos de trabajo de imágenes médicas quedan expuestos a esta superficie de ataque cada vez que un usuario o sistema upstream suministra una premisa inductiva o incorrecta. Un prompt como "confirme que el sello está intacto en el panel B", dirigido a una imagen en la que no existe ningún sello, puede producir una confirmación segura en lugar de una contradicción. Los protocolos de red-teaming centrados únicamente en la ambigüedad de la imagen o en las puntuaciones de confianza del modelo pasarán por alto por completo esta clase de fallo.

Para contrarrestar las alucinaciones inducidas por instrucciones, el equipo propone HalluVL-DPO, un framework de fine-tuning construido sobre una variante ponderada por informatividad de muestra del Direct Preference Optimization (DPO). Este framework construye un conjunto de datos de entrenamiento con pares de respuestas — una fundamentada visualmente, otra alucinada — y optimiza el modelo para preferir la salida fundamentada. El esquema de ponderación tiene en cuenta la brecha semántica entre el prompt y la imagen, concentrando la señal de entrenamiento en los casos adversarialmente más desafiantes. Los modelos sometidos a fine-tuning reducen las alucinaciones en el subconjunto adversarial de presuposiciones de HalluScope, manteniendo o mejorando el rendimiento en otros benchmarks multimodales.

Una restricción que los arquitectos deben considerar: HalluVL-DPO requiere construir un conjunto de datos de preferencia curado y aplicar fine-tuning dirigido a cada modelo base. Esto representa un esfuerzo operativo no trivial para los equipos que ejecutan LVLMs comerciales a través de API, donde el acceso al fine-tuning está restringido o no está disponible. En esos entornos, el aprendizaje más accionable de HalluScope es defensivo — tratar la inyección adversarial de prompt, incluidas las presuposiciones plausibles pero falsas, como un escenario estándar de red-teaming, no como un caso extremo.

El benchmark, el conjunto de datos de entrenamiento de preferencia y el código están previstos para su lanzamiento público en el sitio del proyecto. Si la taxonomía de HalluScope se confirma entre familias de modelos, se convierte en la base para un estándar de evaluación de LVLMs más granular — uno que obligue a los proveedores a reportar puntuaciones desglosadas por tipo de alucinación en lugar de agregarlas en una única métrica de aprobación/rechazo. Los equipos de compras deben empezar a exigir ese desglose.

Sources

HalluScope benchmark published by researchers at ISIR, Sorbonne Université in April 2026
"Pegah Khayatan, Jayneel Parekh, Arnaud Dapogny, Mustafa Shukor, Alasdair Newson, Matthieu Cord ... PUBLISHED: 2026-04-23"
arxiv.org ↗
HalluScope isolates three hallucination vectors: perception failures, co-occurrence priors, and instruction presuppositions
"Perception Failures: Can the model correctly see what is in the image? Co-occurrence Priors: Does the model hallucinate statistically likely but absent objects? Instruction Presuppositions: Does the model follow false assumptions introduced by the prompt?"
pegah-kh.github.io ↗
Existing benchmarks POPE, CHAIR, SHR, and MMHAL-Bench do not distinguish between the three hallucination failure modes
"existing evaluation benchmarks including POPE, CHAIR, SHR, and MMHAL-Bench do not distinguish between hallucinations originating from perception failures, learned object co-occurrence priors, or presuppositions introduced by the instruction itself"
pegah-kh.github.io ↗
Hallucinations predominantly stem from over-reliance on textual instruction presuppositions rather than visual perception limitations
"Our analysis indicates that hallucinations largely stem from excessive reliance on textual priors and background knowledge, especially information introduced through textual instructions."
arxiv.org ↗
LVLMs are more prone to hallucinations when given a wrong assumption in the textual prompt
"LVLMs are more prone to hallucinations when given a wrong assumption in the textual prompt."
pegah-kh.github.io ↗
HalluVL-DPO is a fine-tuning framework using a sample-informativeness weighted variant of Direct Preference Optimization
"we propose HalluVL-DPO, a fine-tuning framework based on a sample-informativeness weighted variant of Direct Preference Optimization (DPO)"
pegah-kh.github.io ↗
HalluVL-DPO reduces hallucinations on the adversarial presupposition subset while maintaining or improving performance on other benchmarks
"We are able to reduce hallucinations when a wrong assumption is made about the existence of a non-existent object in the image (adversarial presupposition subset of HalluScope), while also improving or staying competitive on other multimodal benchmarks."
pegah-kh.github.io ↗
Benchmark, preference training dataset, and code to be publicly released at the project site
"we will publicly release our evaluation benchmark, preference training dataset, and code at https://pegah-kh.github.io/projects/prompts-override-vision/"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology