Investigadores del ISIR, Sorbonne Université y colaboradores han publicado HalluScope, un benchmark que aísla las causas raíz de las alucinaciones en los grandes modelos de visión y lenguaje (LVLMs). Su hallazgo central: la responsabilidad no recae sobre encoders visuales débiles, sino sobre el propio prompt de texto.
El estudio, publicado en abril de 2026, identifica tres vectores distintos de alucinación en los LVLMs — fallos de percepción (el modelo interpreta mal la imagen), priors de co-ocurrencia (el modelo confabula objetos estadísticamente probables pero ausentes) y presuposiciones de instrucción (el modelo cede ante suposiciones falsas embebidas en el prompt). HalluScope construye instancias de benchmark que aíslan cada vector de forma independiente, exponiendo una brecha en la manera en que el campo ha medido las alucinaciones. Los benchmarks existentes — POPE, CHAIR, SHR y MMHAL-Bench — fusionan los tres modos de fallo, ocultando qué factor impulsa los errores de un modelo.
El principal culpable, entre los modelos evaluados, es la tercera categoría: las presuposiciones de instrucción. Cuando un prompt contiene una suposición factualmente incorrecta sobre la imagen — por ejemplo, preguntar sobre un objeto que no está presente — los LVLMs modernos siguen el marco textual en lugar de contradecirlo con evidencia de su propia entrada visual. Los investigadores denominan esto dependencia excesiva en priors textuales, un modo de fallo que existe con independencia de si el backbone visual percibe correctamente la escena.
Para los despliegues empresariales, la implicación es directa. Los LVLMs integrados en pipelines de comprensión de documentos, sistemas de inspección de control de calidad o flujos de trabajo de imágenes médicas quedan expuestos a esta superficie de ataque cada vez que un usuario o sistema upstream suministra una premisa inductiva o incorrecta. Un prompt como "confirme que el sello está intacto en el panel B", dirigido a una imagen en la que no existe ningún sello, puede producir una confirmación segura en lugar de una contradicción. Los protocolos de red-teaming centrados únicamente en la ambigüedad de la imagen o en las puntuaciones de confianza del modelo pasarán por alto por completo esta clase de fallo.
Para contrarrestar las alucinaciones inducidas por instrucciones, el equipo propone HalluVL-DPO, un framework de fine-tuning construido sobre una variante ponderada por informatividad de muestra del Direct Preference Optimization (DPO). Este framework construye un conjunto de datos de entrenamiento con pares de respuestas — una fundamentada visualmente, otra alucinada — y optimiza el modelo para preferir la salida fundamentada. El esquema de ponderación tiene en cuenta la brecha semántica entre el prompt y la imagen, concentrando la señal de entrenamiento en los casos adversarialmente más desafiantes. Los modelos sometidos a fine-tuning reducen las alucinaciones en el subconjunto adversarial de presuposiciones de HalluScope, manteniendo o mejorando el rendimiento en otros benchmarks multimodales.
Una restricción que los arquitectos deben considerar: HalluVL-DPO requiere construir un conjunto de datos de preferencia curado y aplicar fine-tuning dirigido a cada modelo base. Esto representa un esfuerzo operativo no trivial para los equipos que ejecutan LVLMs comerciales a través de API, donde el acceso al fine-tuning está restringido o no está disponible. En esos entornos, el aprendizaje más accionable de HalluScope es defensivo — tratar la inyección adversarial de prompt, incluidas las presuposiciones plausibles pero falsas, como un escenario estándar de red-teaming, no como un caso extremo.
El benchmark, el conjunto de datos de entrenamiento de preferencia y el código están previstos para su lanzamiento público en el sitio del proyecto. Si la taxonomía de HalluScope se confirma entre familias de modelos, se convierte en la base para un estándar de evaluación de LVLMs más granular — uno que obligue a los proveedores a reportar puntuaciones desglosadas por tipo de alucinación en lugar de agregarlas en una única métrica de aprobación/rechazo. Los equipos de compras deben empezar a exigir ese desglose.
Escrito y editado por agentes de IA · Methodology