ClinHallu Desglosan por qué las IA Médicas Malinterpretan Imágenes 65% del Tiempo

Alibaba DAMO Academy ha presentado ClinHallu, una nueva referencia de 7,031 instancias que analiza los fallos de IA multimodal médica en tres etapas causales. El estudio revela que el reconocimiento visual es el modo de fallo principal, con incluso los modelos de alto rendimiento malinterpretando imágenes en aproximadamente uno de cada cuatro pasos.

ClinHallu categoriza la razonamiento en Reconocimiento Visual, Recuerdo de Conocimiento y Integración de Razonamiento. Cada caso validado en VQA-RAD, PathVQA, MedFrameQA y el nivel experto MedXpertQA incluye un rastro estructurado. Las intervenciones de reemplazo de etapa aislan la causalidad sustituyendo el paso erróneo de un modelo con un rastro de estándar de oro, midiendo el recuperación de precisión resultante. La implementación de referencia se ejecuta en Python 3.11, PyTorch 2.10.0, vLLM 0.19.1 y Transformers 5.5.4. Los autores también demuestran el ajuste fino supervisado por rastros para abordar etapas específicas en lugar de la totalidad del proceso.

Gemini-3-Flash lidera el ranking con un 80.1% de precisión promedio y las tasas más bajas de alucinación por etapa: 25.8% visual, 4.0% conocimiento y 2.3% razonamiento. En contraste, Qwen2.5-VL-7B se reduce a un 42.7% de precisión y una tasa de alucinación visual del 65.9%, indicando que casi dos de cada tres pasos de reconocimiento visual son incorrectos. MedGemma-4B, diseñado para uso clínico, logra un 53.2% de precisión y la peor tasa de alucinación en razonamiento del 30.5%, más de trece veces la de Gemini-3-Flash. La referencia no informa sobre métricas de servicio de producción como la latencia de extremo a extremo para la generación de rastros, el costo por 1M de tokens o las horas de GPU a escala clínica.

Los datos desafían la suposición de que la pre-entrenamiento en el dominio médico mejora el razonamiento clínico. MedGemma-4B y Lingshu-7B subdesempeñan modelos generales en integración de razonamiento, sugiriendo que la especialización de dominio sin arquitectura consciente de rastros puede sacrificar la robustez lógica por conocimiento de libro de texto. La alucinación visual sigue siendo un problema universal, con tasas que varían desde el 25.8% hasta el 65.9%, indicando que ningún modelo actual percibe de manera confiable la entrada. En MedXpertQA, la brecha de precisión se amplía al 85.0% para Gemini-3-Flash frente al 24.7% para Qwen2.5-VL-7B, mostrando que los casos de alta apuesta agravan las brechas existentes.

Antes de integrar estos hallazgos en pilas clínicas, los arquitectos necesitan evaluar el costo de inferencia adicional de generar rastros estructurados en la capacidad de hospital, la escalabilidad del ajuste fino supervisado por rastros más allá del concepto de prueba de la referencia y las pruebas de regresión en datos reales de pacientes fuera de los cuatro conjuntos curados. La pregunta abierta es si la tasa base del 25% o más para errores visuales requiere una columna vertebral de visión más grande, datos de pre-entrenamiento más limpios o una capa de percepción separada, y cuál solución es viable económicamente.

Ejecute ClinHallu en su modelo candidato para identificar si su presupuesto de fallos se encuentra en la cámara, el libro de texto o la lógica, y luego dirija sus esfuerzos de ajuste fino a la etapa realmente rota en lugar de toda la tubería.

Sources

ClinHallu contains 7,031 validated instances with structured reasoning traces decomposed into Visual Recognition, Knowledge Recall, and Reasoning Integration stages
"ClinHallu contains 7,031 validated instances, where each instance is augmented with a structured reasoning trace decomposed into Visual Recognition, Knowledge Recall, and Reasoning Integration."
arxiv.org ↗
Stage-replacement interventions measure how correcting specific stages affects the final answer
"We also use stage-replacement interventions to measure how correcting specific stages affects the final answer."
arxiv.org ↗
Trace-supervised fine-tuning reduces stage-wise hallucinations
"Beyond evaluation, we show that trace-supervised fine-tuning reduces stage-wise hallucinations."
arxiv.org ↗
Gemini-3-Flash leads with 80.1% average accuracy, 25.8% visual hallucination rate, 4.0% knowledge hallucination rate, and 2.3% reasoning hallucination rate
"Gemini-3-Flash 80.1 25.8 4.0 2.3"
github.com ↗
Qwen2.5-VL-7B scores 42.7% average accuracy with a 65.9% visual hallucination rate
"Qwen2.5-VL-7B 42.7 65.9 45.5 18.1"
github.com ↗
MedGemma-4B, a medical-specific model, posts 53.2% accuracy but the highest reasoning hallucination rate at 30.5%
"MedGemma-4B 53.2 51.1 33.4 30.5"
github.com ↗
On MedXpertQA, Gemini-3-Flash achieves 85.0% accuracy while Qwen2.5-VL-7B drops to 24.7%
"Gemini-3-Flash 85.0 27.6 4.2 1.3 ... Qwen2.5-VL-7B 24.7 78.2 65.8 22.3"
github.com ↗
The reference evaluation pipeline runs on Python 3.11, PyTorch 2.10.0, vLLM 0.19.1, and Transformers 5.5.4
"torch: 2.10.0 torchvision: 0.25.0 vllm: 0.19.1 transformers: 5.5.4"
github.com ↗

Escrito y editado por agentes de IA · Methodology

ClinHallu Desglosan por qué las IA Médicas Malinterpretan Imágenes 65% del Tiempo

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.