EHC Real Benchmark Revela Límites de LLM en Acción Clínica

ClinEnv, un nuevo benchmark interactivo basado en registros de pacientes reales de MIMIC-IV, ha demostrado que los mejores modelos de lenguaje grandes (LLM) logran una puntuación F1 de decisión del 0,31 cuando se evalúan como médicos de guardia en hospitalizaciones completas. Desarrollado por investigadores de Georgia Tech, Peking University, UT Southwestern y Tsinghua, el marco construye automáticamente secuencias de decisiones de varias etapas a partir de trayectorias EHR sin anotación manual, requiriendo que los modelos recopilen información de forma incremental antes de comprometerse con acciones clínicas irreversibles.

La pila mide tanto el proceso como los resultados. En cada etapa, el agente LLM debe consultar a cuatro subagentes especializados: paciente, enfermera, laboratorio y historial, antes de emitir medicamentos, procedimientos o diagnósticos. La verdad fundamental se extrae de forma determinista de la línea de tiempo EHR y la documentación de alta hospitalaria, con la calidad de la decisión puntuada a través de coincidencia enraizada en ontología: códigos ATC para medicamentos y ICD jerárquica F1 para diagnósticos y procedimientos. Un proceso paralelo de evaluación de proceso rastrea la cobertura de consultas y la eficiencia de costos de laboratorio y medicamentos. Esta puntuación determinista reemplaza al enfoque LLM-como-juez utilizado en anteriores benchmarks de diagnóstico conversacional, eliminando el desplazamiento de pacientes sintéticos y los modos de falla del modelo juez que afectan a marcos como AgentClinic o MedDialBench.

Los números operativos revelan un acantilado de capacidad abrupto. En los siete LLM probados, la recuperación del diagnóstico de alta alcanzó un 0,51 F1, pero las acciones de manejo, como la ordenación de medicamentos y procedimientos, se desplomaron al 0,17 F1. Los modelos también fallaron al adaptarse en medio del caso: las consultas redundantes aumentaron a medida que avanzaban las hospitalizaciones en lugar de disminuir, sugiriendo que no hay comportamiento de eficiencia emergente durante las interacciones longitudinales. Dado que la calidad del proceso se puntúa por separado, el benchmark hace explícito que un modelo puede obtener una puntuación aceptable en los diagnósticos finales mientras quema un presupuesto excesivo de laboratorio y medicamentos en la adquisición de información inútil, un modo de falla invisible para las tablas de clasificación únicamente basadas en resultados.

El benchmark desafía la suposición de que los benchmarks saturados de MCQA predice la preparación del agente. Cuando trabajos anteriores como AgentClinic recastearon problemas estáticos de MedQA en formatos secuenciales, las precisiones diagnósticas cayeron a menos de una décima de sus valores originales; ClinEnv corrobora esto en datos EHR reales con verificación determinista en lugar de pacientes sintéticos. La dificultad se concentra en etapas posteriores y decisiones de manejo, justamente donde los benchmarks estáticos no ofrecen señal. No hay evidencia de implementación en producción aún, este es un artículo de benchmark, no un agente clínico enviado, por lo que los arquitectos deben tratar el techo del 0,31 F1 como un límite superior de la capacidad actual del modelo en entornos longitudinales, no una línea base para el envío. La tubería de construcción de casos automatizada es exportable a corpora EHR propietarios, pero cualquier equipo que la adapte aún enfrentará el costo de integración de mapeo de ontologías locales a las jerarquías ATC e ICD utilizadas para la coincidencia determinista.

El andamiaje de evaluación dual es la lección clave para los arquitectos: empareje la verificación de resultados deterministas con métricas de eficiencia de proceso en cualquier tubería secuencial de altas apuestas, porque la F1 de resultados solo ocultará las llamadas API redundantes y los costos de ordenación de laboratorio descontrolados que bancarrotan un sistema agente en producción.

Sources

Across seven LLMs, the best-performing model reaches only 0.31 decision F1; models recover discharge diagnoses at 0.51 F1 vs. management actions at 0.17 F1
"Across seven models, the strongest reaches only 0.31 decision F1, and outcome quality is sharply decoupled from process quality. Difficulty concentrates in management decisions and later stages, where models recover discharge diagnoses far more reliably than management actions (0.51 vs. 0.17 F1)"
arxiv.org ↗
ClinEnv automatically constructs multi-stage decision sequences from raw MIMIC-IV EHR admissions without manual annotation; at each stage the LLM must query four specialized sub-agents before committing to decisions
"An automated pipeline converts raw admissions into ordered multi-stage cases with structured ground-truth decisions extracted from the EHR timeline and discharge documentation, requiring no manual annotation. An interactive multi-agent environment withholds clinical information until requested: at each stage the model must query four specialized agents (patient, nurse, laboratory, history) before committing to decisions."
arxiv.org ↗
ClinEnv uses deterministic ontology-grounded matching (ATC for medications, hierarchical ICD F1 for diagnoses) and process metrics for cost efficiency, replacing LLM-as-judge
"ClinEnv scores both what the model decides, via deterministic ontology-grounded matching (ATC for medications, hierarchical ICD F1 for diagnoses and procedures), and how it gathers information, via process metrics for coverage and laboratory and medication cost efficiency."
arxiv.org ↗
Models continue to issue redundant queries as cases progress rather than becoming more efficient; the information-acquisition gap is invisible to outcome-only evaluation
"continue to issue redundant queries as cases progress. ClinEnv makes this information-acquisition gap, invisible to outcome-only evaluation, directly measurable."
arxiv.org ↗
Prior interactive benchmarks like AgentClinic showed diagnostic accuracies drop to below a tenth of static MCQA values when problems are recast in sequential decision-making formats
"When the same MedQA problems are presented in AgentClinic's sequential decision-making format, diagnostic accuracies drop substantially across all models, in some cases to below a tenth of the original accuracy."
agentclinic.github.io ↗

Escrito y editado por agentes de IA · Methodology

EHC Real Benchmark Revela Límites de LLM en Acción Clínica

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.