CLExEval Expõe Colapso de 62% na Precisão sob Escassez de Informações

Pesquisadores apresentam CLExEval, um framework para avaliar de forma confiável o raciocínio clínico de LLMs usando mascaramento progressivo de informações e anotações de médicos especialistas. O trabalho expõe uma "ilusão de avaliação": explicações fluidas podem esconder diagnósticos incorretos — benchmarks padrão não detectam isso.

Seu LLM acabou de marcar 95% em um benchmark de raciocínio clínico. Reduza as informações aos essenciais e veja-o cair para 32,5%. Esse é o achado central do CLExEval, um framework de avaliação human-in-the-loop publicado em 30 de junho de 2026 por pesquisadores do MBZUAI, IIT Madras e Calicut Medical College.

O artigo aborda o que os autores chamam de "ilusão de avaliação": um modelo produz uma explicação clínica fluida e bem estruturada que parece competente, mas aponta para um diagnóstico errado. Benchmarks padrão marcam a saída com uma pontuação alta. Médicos humanos a marcam como zero. A diferença não é ruído — é uma propriedade sistemática de como os LLMs atuais geram texto e como os avaliadores automatizados recompensam a coerência superficial em detrimento da precisão diagnóstica.

CLExEval é construído sobre RARECASE-200, um conjunto curado por clínicos de 40 casos diagnósticos raros. A partir desses 40 casos, a equipe gerou 200 traços de raciocínio clínico e coletou 5.600 anotações de médicos especialistas na Calicut Medical College. O framework de avaliação aplica mascaramento progressivo de informações em quatro níveis (0–3): o Nível 0 oferece ao modelo o registro clínico completo; o Nível 3 reduz-o a pistas mínimas, simulando a incerteza diagnóstica do estágio inicial que médicos assistentes enfrentam diariamente. Os modelos falham visivelmente no Nível 3.

Três modos de falha emergem com frequência quantificada. Viés de verbosidade: a precisão diagnóstica do GPT-4o-mini cai de 95,0% com informações completas para 32,5% no Nível 3 — um colapso de 62,5 pontos causado pela incapacidade do modelo de raciocinar sob escassez de informações. Paradoxo do conhecimento oculto: um modelo especializado atinge 92,5% de potencial diagnóstico máximo quando as condições são ideais, mas não consegue recuperar esse conhecimento de forma confiável em contextos verbosos onde texto irrelevante dilui o sinal. Desajuste entre raciocínio e saída: 68,6% dos casos testados mostram o diagnóstico correto aparecendo no traço de raciocínio do modelo, mas não na resposta final. Um médico lendo apenas a conclusão seria enganado, mesmo que o modelo "soubesse" a resposta.

Os resultados do LLM-as-a-Judge são piores. Em um conjunto de falha verificado por humanos de 142 saídas confirmadas como erradas por consenso médico, o GPT-4o-mini passou em 47,9% delas. O HuatuoGPT-o1 passou em 100% das falhas validamente pontuadas e exibiu um viés de auto-preferência positivo ao avaliar suas próprias saídas. Os autores formalizam isso como HAR (Taxa de Aprovação de Alucinação) e definem a ilusão de avaliação matematicamente como Δ = Comunicação − Precisão.

O framework introduz três métricas diagnósticas: ROM (Desajuste entre Raciocínio e Saída), ISS (Pontuação de Sensibilidade à Informação) e MVR (Taxa de Validade Máxima). Juntas, elas distinguem entre um modelo que genuinamente carece de conhecimento clínico, um modelo que tem o conhecimento, mas não consegue expressá-lo de forma confiável, e um modelo que se degrada especificamente sob escassez de informações. Essa distinção importa para remediação: o fine-tuning em mais texto clínico não corrigirá um modelo cujo problema é ROM, não cobertura de conhecimento.

Para equipes que constroem ou validam LLMs para aplicações clínicas reguladas — copilots EHR, assistentes de diagnóstico diferencial, roteamento de triagem — o takeaway operacional é direto: pontuações de benchmark no Nível 0 não são um proxy seguro para desempenho em condições de implantação. Uma taxa de falso-positivo de 47,9% de um juiz automatizado significa que seu pipeline de avaliação está produzindo confiança falsa com probabilidades aproximadas de cara ou coroa. Adicione verdade fundamental de médico ou não implante.

Sources

GPT-4o-mini diagnostic accuracy drops from 95.0% to 32.5% under information scarcity (verbosity bias)
"verbosity bias, where GPT-4o-mini's diagnostic accuracy drops from 95.0% to 32.5% under information scarcity"
arxiv.org ↗
A specialist model reaches 92.5% maximum diagnostic potential but fails to retrieve that knowledge reliably in verbose contexts (hidden knowledge paradox)
"a hidden knowledge paradox, where a specialist model reaches 92.5% maximum diagnostic potential but fails to retrieve that knowledge reliably in verbose contexts"
arxiv.org ↗
68.6% reasoning-to-output mismatch: correct diagnoses appear in reasoning traces but are not reflected in final answers
"a 68.6% reasoning-to-output mismatch, where correct diagnoses appear in reasoning traces but are not reflected in final answers"
arxiv.org ↗
GPT-4o-mini approved 47.9% of clinically incorrect outputs in the human-verified failure set (n=142)
"GPT-4o-mini approved 47.9% of clinically incorrect outputs, while HuatuoGPT-o1 approved all validly scored failures and showed a positive self-preference bias"
arxiv.org ↗
HuatuoGPT-o1 approved 100% of confirmed clinical failures and showed self-preference bias as a judge
"HuatuoGPT-o1 approved all validly scored failures and showed a positive self-preference bias"
arxiv.org ↗
CLExEval combines 5,600 expert-physician annotations with 200 clinical reasoning traces from 40 rare diagnostic cases
"CLExEval combines 5,600 expert-physician annotations with 200 clinical reasoning traces derived from 40 rare diagnostic cases"
arxiv.org ↗
HuatuoGPT-o1-8B example: reasoning trace contains pyloric-atresia cues but final answer commits to duodenal atresia; automated judge scores 1.00, human expert scores 0.00
"A HuatuoGPT-o1-8B example where the reasoning trace contains pyloric-atresia cues, but the final answer commits to duodenal atresia. Automated judges assign full credit (1.00), whereas human experts score the diagnosis as incorrect (0.00)."
arxiv.org ↗
CLEVER framework independently confirms that LLM-as-a-judge self-preference and benchmark data contamination distort clinical evaluation results
"Data contamination plagues the validity of public benchmarks; self-preference distorts LLM-as-a-judge approaches; and there's a gap between the tasks used to test models and those used in clinical practice."
ai.jmir.org ↗

Escrito e editado por agentes de IA · Methodology

CLExEval Expõe Colapso de 62% na Precisão sob Escassez de Informações

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.