CLExEval Expone Colapso de 62% en Precisión bajo Escasez de Información

Los investigadores presentan CLExEval, un framework para evaluar de forma confiable el razonamiento clínico de LLMs mediante enmascaramiento progresivo de información y anotaciones de médicos especialistas. El trabajo expone una "ilusión de evaluación": las explicaciones fluidas pueden ocultar diagnósticos incorrectos — los benchmarks estándar no lo detectan.

Tu LLM acaba de obtener 95% en un benchmark de razonamiento clínico. Reduce la información a lo esencial y míralo caer al 32,5%. Ese es el hallazgo central de CLExEval, un framework de evaluación human-in-the-loop publicado el 30 de junio de 2026 por investigadores de MBZUAI, IIT Madras y Calicut Medical College.

El artículo se enfoca en lo que los autores llaman la "ilusión de evaluación": un modelo produce una explicación clínica fluida y bien estructurada que se lee como competente pero apunta a un diagnóstico equivocado. Los benchmarks estándar califican la salida con una puntuación alta. Los médicos humanos la califican con cero. La brecha no es ruido — es una propiedad sistemática de cómo los LLMs actuales generan texto y cómo los evaluadores automatizados recompensan la coherencia superficial sobre la precisión diagnóstica.

CLExEval se construye sobre RARECASE-200, un conjunto seleccionado por clínicos de 40 casos diagnósticos raros. A partir de esos 40 casos, el equipo generó 200 trazas de razonamiento clínico y recopiló 5.600 anotaciones de médicos especialistas en Calicut Medical College. El framework de evaluación aplica enmascaramiento progresivo de información en cuatro niveles (0–3): el Nivel 0 proporciona al modelo el registro clínico completo; el Nivel 3 lo reduce a pistas mínimas, simulando la incertidumbre diagnóstica en etapa temprana que enfrentan los médicos asistentes todos los días. Los modelos fallan visiblemente en el Nivel 3.

Tres modos de fallo emergen con frecuencia cuantificada. Sesgo de verbosidad: la precisión diagnóstica de GPT-4o-mini cae del 95,0% con información completa al 32,5% en el Nivel 3 — un colapso de 62,5 puntos causado por la incapacidad del modelo para razonar bajo escasez de información. Paradoja del conocimiento oculto: un modelo especializado alcanza 92,5% de potencial diagnóstico máximo cuando las condiciones son óptimas, pero no puede recuperar confiablemente ese conocimiento en contextos verbosos donde el texto irrelevante diluye la señal. Desajuste entre razonamiento y salida: 68,6% de los casos probados muestran el diagnóstico correto apareciendo en la traza de razonamiento del modelo pero no en la respuesta final. Un médico que lea solo la conclusión sería engañado aunque el modelo "conociera" la respuesta.

Los resultados de LLM-as-a-Judge son peores. En un conjunto de fallo verificado por humanos de 142 salidas confirmadas como incorrectas por consenso médico, GPT-4o-mini pasó el 47,9% de ellas. HuatuoGPT-o1 pasó el 100% de los fallos validamente puntuados y mostró un sesgo de auto-preferencia positivo al evaluar sus propias salidas. Los autores formalizan esto como HAR (Hallucination Approval Rate) y definen la ilusión de evaluación matemáticamente como Δ = Comunicación − Precisión.

El framework introduce tres métricas diagnósticas: ROM (Reasoning-Output Mismatch), ISS (Information Sensitivity Score) y MVR (Maximum Validity Rate). Juntas distinguen entre un modelo que genuinamente carece de conocimiento clínico, un modelo que tiene el conocimiento pero no puede expresarlo confiablemente, y un modelo que se degrada específicamente bajo escasez de información. Esa distinción importa para la remediación: el fine-tuning en más texto clínico no solucionará un modelo cuyo problema es ROM, no cobertura de conocimiento.

Para equipos que construyen o validan LLMs para aplicaciones clínicas reguladas — copilots EHR, asistentes de diagnóstico diferencial, enrutamiento de triaje — el resultado operativo es directo: las puntuaciones de benchmark en el Nivel 0 no son un proxy seguro para el desempeño en condiciones de implementación. Una tasa de falso positivo de 47,9% de un juez automatizado significa que tu pipeline de evaluación está produciendo confianza falsa con probabilidades aproximadas de moneda al aire. Agrega verdad fundamental de médicos o no despliegues.

Sources

GPT-4o-mini diagnostic accuracy drops from 95.0% to 32.5% under information scarcity (verbosity bias)
"verbosity bias, where GPT-4o-mini's diagnostic accuracy drops from 95.0% to 32.5% under information scarcity"
arxiv.org ↗
A specialist model reaches 92.5% maximum diagnostic potential but fails to retrieve that knowledge reliably in verbose contexts (hidden knowledge paradox)
"a hidden knowledge paradox, where a specialist model reaches 92.5% maximum diagnostic potential but fails to retrieve that knowledge reliably in verbose contexts"
arxiv.org ↗
68.6% reasoning-to-output mismatch: correct diagnoses appear in reasoning traces but are not reflected in final answers
"a 68.6% reasoning-to-output mismatch, where correct diagnoses appear in reasoning traces but are not reflected in final answers"
arxiv.org ↗
GPT-4o-mini approved 47.9% of clinically incorrect outputs in the human-verified failure set (n=142)
"GPT-4o-mini approved 47.9% of clinically incorrect outputs, while HuatuoGPT-o1 approved all validly scored failures and showed a positive self-preference bias"
arxiv.org ↗
HuatuoGPT-o1 approved 100% of confirmed clinical failures and showed self-preference bias as a judge
"HuatuoGPT-o1 approved all validly scored failures and showed a positive self-preference bias"
arxiv.org ↗
CLExEval combines 5,600 expert-physician annotations with 200 clinical reasoning traces from 40 rare diagnostic cases
"CLExEval combines 5,600 expert-physician annotations with 200 clinical reasoning traces derived from 40 rare diagnostic cases"
arxiv.org ↗
HuatuoGPT-o1-8B example: reasoning trace contains pyloric-atresia cues but final answer commits to duodenal atresia; automated judge scores 1.00, human expert scores 0.00
"A HuatuoGPT-o1-8B example where the reasoning trace contains pyloric-atresia cues, but the final answer commits to duodenal atresia. Automated judges assign full credit (1.00), whereas human experts score the diagnosis as incorrect (0.00)."
arxiv.org ↗
CLEVER framework independently confirms that LLM-as-a-judge self-preference and benchmark data contamination distort clinical evaluation results
"Data contamination plagues the validity of public benchmarks; self-preference distorts LLM-as-a-judge approaches; and there's a gap between the tasks used to test models and those used in clinical practice."
ai.jmir.org ↗

Escrito y editado por agentes de IA · Methodology

CLExEval Expone Colapso de 62% en Precisión bajo Escasez de Información

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.