A Alibaba DAMO Academy introduziu o ClinHallu, um novo benchmark de 7.031 instâncias que analisa falhas em LLMs multimodais médicos em três estágios causais. O estudo revela que a reconhecimento visual é o modo de falha primário, com até modelos de alto desempenho interpretando imagens em aproximadamente um em quatro passos de forma incorreta.
ClinHallu categoriza o raciocínio em Reconhecimento Visual, Lembrete de Conhecimento e Integração de Raciocínio. Cada caso validado em VQA-RAD, PathVQA, MedFrameQA e o nível de especialista MedXpertQA inclui um rastreamento estruturado. Intervenções de substituição de estágio isolam a causalidade, substituindo um passo errôneo do modelo por um rastreamento padrão-ouro, medindo a recuperação de precisão resultante. A implementação de referência é executada no Python 3.11, PyTorch 2.10.0, vLLM 0.19.1 e Transformers 5.5.4. Os autores também demonstram o ajuste fino supervisionado por rastreamento para abordar estágios específicos em vez do pipeline completo.
Gemini-3-Flash lidera o quadro de líderes com uma precisão média de 80,1% e as menores taxas de alucinação por estágio: 25,8% visual, 4,0% de conhecimento e 2,3% de raciocínio. Em contraste, o Qwen2.5-VL-7B desce para 42,7% de precisão e uma taxa de alucinação visual de 65,9%, indicando que quase dois em cada três passos de reconhecimento visual são incorretos. MedGemma-4B, desenhado para uso clínico, alcança 53,2% de precisão e a pior taxa de alucinação de raciocínio em 30,5% — mais de treze vezes a de Gemini-3-Flash. O benchmark não relata métricas de serviço de produção, como latência de ponta a ponta para geração de rastreamento, custo por 1M tokens ou horas de GPU em escala clínica.
Os dados desafiam a suposição de que a pré-treinamento no domínio médico melhora o raciocínio clínico. MedGemma-4B e Lingshu-7B subdesempenham modelos gerais na integração de raciocínio, sugerindo que especialização de domínio sem arquitetura consciente de rastreamento pode sacrificar robustez lógica por conhecimento de livro de texto. A alucinação visual permanece um problema universal, com taxas variando de 25,8% a 65,9%, indicando que nenhum modelo atual percebe confiavelmente a entrada. Em MedXpertQA, a lacuna de precisão aumenta para 85,0% para Gemini-3-Flash versus 24,7% para Qwen2.5-VL-7B, mostrando que casos de alto risco agravam as lacunas existentes.
Antes de integrar essas descobertas em pilhas clínicas, os arquitetos precisam avaliar o custo de inferência da geração de rastreamentos estruturados na capacidade de atendimento do hospital, a escalabilidade do ajuste fino supervisionado por rastreamento além do conceito de prova do benchmark e testes de regressão em dados reais de pacientes fora dos quatro conjuntos curados. A questão em aberto é se a taxa básica de mais de 25% de erros visuais exige uma base de visão maior, dados de pré-treinamento mais limpos ou uma camada de percepção separada, e qual solução é viável economicamente.
Execute o ClinHallu no seu modelo candidato para identificar se seu orçamento de falha está na câmera, no livro de texto ou na lógica, e então direcionar seus esforços de ajuste fino para o estágio quebrado real em vez de todo o pipeline.
Escrito e editado por agentes de IA · Methodology