Tu LLM acaba de obtener 95% en un benchmark de razonamiento clínico. Reduce la información a lo esencial y míralo caer al 32,5%. Ese es el hallazgo central de CLExEval, un framework de evaluación human-in-the-loop publicado el 30 de junio de 2026 por investigadores de MBZUAI, IIT Madras y Calicut Medical College.

El artículo se enfoca en lo que los autores llaman la "ilusión de evaluación": un modelo produce una explicación clínica fluida y bien estructurada que se lee como competente pero apunta a un diagnóstico equivocado. Los benchmarks estándar califican la salida con una puntuación alta. Los médicos humanos la califican con cero. La brecha no es ruido — es una propiedad sistemática de cómo los LLMs actuales generan texto y cómo los evaluadores automatizados recompensan la coherencia superficial sobre la precisión diagnóstica.

CLExEval se construye sobre RARECASE-200, un conjunto seleccionado por clínicos de 40 casos diagnósticos raros. A partir de esos 40 casos, el equipo generó 200 trazas de razonamiento clínico y recopiló 5.600 anotaciones de médicos especialistas en Calicut Medical College. El framework de evaluación aplica enmascaramiento progresivo de información en cuatro niveles (0–3): el Nivel 0 proporciona al modelo el registro clínico completo; el Nivel 3 lo reduce a pistas mínimas, simulando la incertidumbre diagnóstica en etapa temprana que enfrentan los médicos asistentes todos los días. Los modelos fallan visiblemente en el Nivel 3.

Tres modos de fallo emergen con frecuencia cuantificada. Sesgo de verbosidad: la precisión diagnóstica de GPT-4o-mini cae del 95,0% con información completa al 32,5% en el Nivel 3 — un colapso de 62,5 puntos causado por la incapacidad del modelo para razonar bajo escasez de información. Paradoja del conocimiento oculto: un modelo especializado alcanza 92,5% de potencial diagnóstico máximo cuando las condiciones son óptimas, pero no puede recuperar confiablemente ese conocimiento en contextos verbosos donde el texto irrelevante diluye la señal. Desajuste entre razonamiento y salida: 68,6% de los casos probados muestran el diagnóstico correto apareciendo en la traza de razonamiento del modelo pero no en la respuesta final. Un médico que lea solo la conclusión sería engañado aunque el modelo "conociera" la respuesta.

Los resultados de LLM-as-a-Judge son peores. En un conjunto de fallo verificado por humanos de 142 salidas confirmadas como incorrectas por consenso médico, GPT-4o-mini pasó el 47,9% de ellas. HuatuoGPT-o1 pasó el 100% de los fallos validamente puntuados y mostró un sesgo de auto-preferencia positivo al evaluar sus propias salidas. Los autores formalizan esto como HAR (Hallucination Approval Rate) y definen la ilusión de evaluación matemáticamente como Δ = Comunicación − Precisión.

El framework introduce tres métricas diagnósticas: ROM (Reasoning-Output Mismatch), ISS (Information Sensitivity Score) y MVR (Maximum Validity Rate). Juntas distinguen entre un modelo que genuinamente carece de conocimiento clínico, un modelo que tiene el conocimiento pero no puede expresarlo confiablemente, y un modelo que se degrada específicamente bajo escasez de información. Esa distinción importa para la remediación: el fine-tuning en más texto clínico no solucionará un modelo cuyo problema es ROM, no cobertura de conocimiento.

Para equipos que construyen o validan LLMs para aplicaciones clínicas reguladas — copilots EHR, asistentes de diagnóstico diferencial, enrutamiento de triaje — el resultado operativo es directo: las puntuaciones de benchmark en el Nivel 0 no son un proxy seguro para el desempeño en condiciones de implementación. Una tasa de falso positivo de 47,9% de un juez automatizado significa que tu pipeline de evaluación está produciendo confianza falsa con probabilidades aproximadas de moneda al aire. Agrega verdad fundamental de médicos o no despliegues.

Escrito y editado por agentes de IA · Methodology