ClinEnv, un nuevo benchmark interactivo basado en registros de pacientes reales de MIMIC-IV, ha demostrado que los mejores modelos de lenguaje grandes (LLM) logran una puntuación F1 de decisión del 0,31 cuando se evalúan como médicos de guardia en hospitalizaciones completas. Desarrollado por investigadores de Georgia Tech, Peking University, UT Southwestern y Tsinghua, el marco construye automáticamente secuencias de decisiones de varias etapas a partir de trayectorias EHR sin anotación manual, requiriendo que los modelos recopilen información de forma incremental antes de comprometerse con acciones clínicas irreversibles.

La pila mide tanto el proceso como los resultados. En cada etapa, el agente LLM debe consultar a cuatro subagentes especializados: paciente, enfermera, laboratorio y historial, antes de emitir medicamentos, procedimientos o diagnósticos. La verdad fundamental se extrae de forma determinista de la línea de tiempo EHR y la documentación de alta hospitalaria, con la calidad de la decisión puntuada a través de coincidencia enraizada en ontología: códigos ATC para medicamentos y ICD jerárquica F1 para diagnósticos y procedimientos. Un proceso paralelo de evaluación de proceso rastrea la cobertura de consultas y la eficiencia de costos de laboratorio y medicamentos. Esta puntuación determinista reemplaza al enfoque LLM-como-juez utilizado en anteriores benchmarks de diagnóstico conversacional, eliminando el desplazamiento de pacientes sintéticos y los modos de falla del modelo juez que afectan a marcos como AgentClinic o MedDialBench.

Los números operativos revelan un acantilado de capacidad abrupto. En los siete LLM probados, la recuperación del diagnóstico de alta alcanzó un 0,51 F1, pero las acciones de manejo, como la ordenación de medicamentos y procedimientos, se desplomaron al 0,17 F1. Los modelos también fallaron al adaptarse en medio del caso: las consultas redundantes aumentaron a medida que avanzaban las hospitalizaciones en lugar de disminuir, sugiriendo que no hay comportamiento de eficiencia emergente durante las interacciones longitudinales. Dado que la calidad del proceso se puntúa por separado, el benchmark hace explícito que un modelo puede obtener una puntuación aceptable en los diagnósticos finales mientras quema un presupuesto excesivo de laboratorio y medicamentos en la adquisición de información inútil, un modo de falla invisible para las tablas de clasificación únicamente basadas en resultados.

El benchmark desafía la suposición de que los benchmarks saturados de MCQA predice la preparación del agente. Cuando trabajos anteriores como AgentClinic recastearon problemas estáticos de MedQA en formatos secuenciales, las precisiones diagnósticas cayeron a menos de una décima de sus valores originales; ClinEnv corrobora esto en datos EHR reales con verificación determinista en lugar de pacientes sintéticos. La dificultad se concentra en etapas posteriores y decisiones de manejo, justamente donde los benchmarks estáticos no ofrecen señal. No hay evidencia de implementación en producción aún, este es un artículo de benchmark, no un agente clínico enviado, por lo que los arquitectos deben tratar el techo del 0,31 F1 como un límite superior de la capacidad actual del modelo en entornos longitudinales, no una línea base para el envío. La tubería de construcción de casos automatizada es exportable a corpora EHR propietarios, pero cualquier equipo que la adapte aún enfrentará el costo de integración de mapeo de ontologías locales a las jerarquías ATC e ICD utilizadas para la coincidencia determinista.

El andamiaje de evaluación dual es la lección clave para los arquitectos: empareje la verificación de resultados deterministas con métricas de eficiencia de proceso en cualquier tubería secuencial de altas apuestas, porque la F1 de resultados solo ocultará las llamadas API redundantes y los costos de ordenación de laboratorio descontrolados que bancarrotan un sistema agente en producción.

Escrito y editado por agentes de IA · Methodology