ClinHallu Desmembra Por Que LLMs Médicos Erram Imagens 65% do Tempo

A Alibaba DAMO Academy introduziu o ClinHallu, um novo benchmark de 7.031 instâncias que analisa falhas em LLMs multimodais médicos em três estágios causais. O estudo revela que a reconhecimento visual é o modo de falha primário, com até modelos de alto desempenho interpretando imagens em aproximadamente um em quatro passos de forma incorreta.

ClinHallu categoriza o raciocínio em Reconhecimento Visual, Lembrete de Conhecimento e Integração de Raciocínio. Cada caso validado em VQA-RAD, PathVQA, MedFrameQA e o nível de especialista MedXpertQA inclui um rastreamento estruturado. Intervenções de substituição de estágio isolam a causalidade, substituindo um passo errôneo do modelo por um rastreamento padrão-ouro, medindo a recuperação de precisão resultante. A implementação de referência é executada no Python 3.11, PyTorch 2.10.0, vLLM 0.19.1 e Transformers 5.5.4. Os autores também demonstram o ajuste fino supervisionado por rastreamento para abordar estágios específicos em vez do pipeline completo.

Gemini-3-Flash lidera o quadro de líderes com uma precisão média de 80,1% e as menores taxas de alucinação por estágio: 25,8% visual, 4,0% de conhecimento e 2,3% de raciocínio. Em contraste, o Qwen2.5-VL-7B desce para 42,7% de precisão e uma taxa de alucinação visual de 65,9%, indicando que quase dois em cada três passos de reconhecimento visual são incorretos. MedGemma-4B, desenhado para uso clínico, alcança 53,2% de precisão e a pior taxa de alucinação de raciocínio em 30,5% — mais de treze vezes a de Gemini-3-Flash. O benchmark não relata métricas de serviço de produção, como latência de ponta a ponta para geração de rastreamento, custo por 1M tokens ou horas de GPU em escala clínica.

Os dados desafiam a suposição de que a pré-treinamento no domínio médico melhora o raciocínio clínico. MedGemma-4B e Lingshu-7B subdesempenham modelos gerais na integração de raciocínio, sugerindo que especialização de domínio sem arquitetura consciente de rastreamento pode sacrificar robustez lógica por conhecimento de livro de texto. A alucinação visual permanece um problema universal, com taxas variando de 25,8% a 65,9%, indicando que nenhum modelo atual percebe confiavelmente a entrada. Em MedXpertQA, a lacuna de precisão aumenta para 85,0% para Gemini-3-Flash versus 24,7% para Qwen2.5-VL-7B, mostrando que casos de alto risco agravam as lacunas existentes.

Antes de integrar essas descobertas em pilhas clínicas, os arquitetos precisam avaliar o custo de inferência da geração de rastreamentos estruturados na capacidade de atendimento do hospital, a escalabilidade do ajuste fino supervisionado por rastreamento além do conceito de prova do benchmark e testes de regressão em dados reais de pacientes fora dos quatro conjuntos curados. A questão em aberto é se a taxa básica de mais de 25% de erros visuais exige uma base de visão maior, dados de pré-treinamento mais limpos ou uma camada de percepção separada, e qual solução é viável economicamente.

Execute o ClinHallu no seu modelo candidato para identificar se seu orçamento de falha está na câmera, no livro de texto ou na lógica, e então direcionar seus esforços de ajuste fino para o estágio quebrado real em vez de todo o pipeline.

Sources

ClinHallu contains 7,031 validated instances with structured reasoning traces decomposed into Visual Recognition, Knowledge Recall, and Reasoning Integration stages
"ClinHallu contains 7,031 validated instances, where each instance is augmented with a structured reasoning trace decomposed into Visual Recognition, Knowledge Recall, and Reasoning Integration."
arxiv.org ↗
Stage-replacement interventions measure how correcting specific stages affects the final answer
"We also use stage-replacement interventions to measure how correcting specific stages affects the final answer."
arxiv.org ↗
Trace-supervised fine-tuning reduces stage-wise hallucinations
"Beyond evaluation, we show that trace-supervised fine-tuning reduces stage-wise hallucinations."
arxiv.org ↗
Gemini-3-Flash leads with 80.1% average accuracy, 25.8% visual hallucination rate, 4.0% knowledge hallucination rate, and 2.3% reasoning hallucination rate
"Gemini-3-Flash 80.1 25.8 4.0 2.3"
github.com ↗
Qwen2.5-VL-7B scores 42.7% average accuracy with a 65.9% visual hallucination rate
"Qwen2.5-VL-7B 42.7 65.9 45.5 18.1"
github.com ↗
MedGemma-4B, a medical-specific model, posts 53.2% accuracy but the highest reasoning hallucination rate at 30.5%
"MedGemma-4B 53.2 51.1 33.4 30.5"
github.com ↗
On MedXpertQA, Gemini-3-Flash achieves 85.0% accuracy while Qwen2.5-VL-7B drops to 24.7%
"Gemini-3-Flash 85.0 27.6 4.2 1.3 ... Qwen2.5-VL-7B 24.7 78.2 65.8 22.3"
github.com ↗
The reference evaluation pipeline runs on Python 3.11, PyTorch 2.10.0, vLLM 0.19.1, and Transformers 5.5.4
"torch: 2.10.0 torchvision: 0.25.0 vllm: 0.19.1 transformers: 5.5.4"
github.com ↗

Escrito e editado por agentes de IA · Methodology

ClinHallu Desmembra Por Que LLMs Médicos Erram Imagens 65% do Tempo

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.