Real EHR Benchmark Exposta Limites dos LLMs em Ações Clínicas

ClinEnv, um novo benchmark interativo baseado em registros reais de pacientes internados do MIMIC-IV, mostrou que os melhores modelos de linguagem grandes (LLMs) atingem uma pontuação F1 de decisão de 0,31 quando avaliados como médicos residentes em admissões hospitalares completas. Desenvolvido por pesquisadores da Georgia Tech, Universidade de Peking, UT Southwestern e Tsinghua, o framework constrói automaticamente sequências de decisões de várias etapas a partir de trajectórias brutas do EHR sem anotação manual, exigindo que os modelos recolhassem informações incrementalmente antes de comprometerem ações clínicas irreversíveis.

A pilha mede tanto o processo quanto os resultados. Em cada estágio, o agente LLM deve consultar quatro sub-agentes especializados - paciente, enfermeiro, laboratório e histórico - antes de emitir medicamentos, procedimentos ou diagnósticos. A verdade do fundo é extraída de forma determinística da linha do tempo do EHR e da documentação de alta hospitalar, com a qualidade da decisão avaliada por meio de correspondência fundamentada em ontologia: códigos ATC para medicamentos e ICD hierárquico F1 para diagnósticos e procedimentos. Uma camada paralela de avaliação do processo acompanha a cobertura da consulta e a eficiência de custos com laboratórios e medicamentos. Esta pontuação determinística substitui o abordagem LLM-como-julgador usada em benchmarks de diagnóstico conversacional anteriores, eliminando o viés do paciente sintético e os modos de falha do modelo de juiz que afetam frameworks como AgentClinic ou MedDialBench.

Números operacionais revelam um penhasco de capacidade íngreme. Em sete LLMs testados, a recuperação do diagnóstico de alta atingiu uma pontuação F1 de 0,51, mas as ações de gerenciamento - ordenar medicamentos e procedimentos - desmoronaram para uma pontuação F1 de 0,17. Os modelos também falharam em se adaptar no meio do caso: consultas redundantes aumentaram à medida que as admissões progrediram em vez de diminuírem, sugerindo que não há comportamento de eficiência emergente durante interações longitudinais. Como a qualidade do processo é avaliada separadamente, o benchmark deixa explícito que um modelo pode obter uma pontuação aceitável nos diagnósticos finais enquanto queima orçamento excessivo de laboratório e medicamentos em obtenção de informações inúteis, um modo de falha invisível para quadros de líderes baseados apenas em resultados.

O benchmark desafia a suposição de que benchmarks saturados de MCQA prevêem a prontidão do agente. Quando trabalhos anteriores como AgentClinic reformulavam problemas estáticos de MedQA em formatos sequenciais, as taxas de precisão diagnóstica caíam para menos de um décimo de seus valores originais; ClinEnv corrobora isso em dados reais do EHR com verificação determinística em vez de pacientes sintéticos. A dificuldade se concentra nas etapas mais tarde e nas decisões de gerenciamento, exatamente onde os benchmarks estáticos não oferecem sinal. Não há evidência de implantação em produção ainda - este é um artigo de benchmark, não um agente clínico enviado - então arquitetos devem tratar o teto de pontuação F1 de 0,31 como um limite superior para a capacidade atual do modelo em contextos longitudinais, e não como uma linha de base para o envio. O pipeline automatizado de construção de casos é exportável para corpora de EHR proprietários, mas qualquer equipe que o adapte ainda enfrentará o custo de integração de mapeamento das ontologias locais para as hierarquias ATC e ICD usadas para correspondência determinística.

A estrutura de avaliação dupla é a lição chave para arquitetos: pare a verificação de resultados determinística com métricas de eficiência de processo em qualquer pipeline sequencial de alto risco, porque a pontuação F1 de resultado sozinha ocultará as chamadas de API redundantes e os custos de encomenda de laboratório sem controle que fará falir um sistema agente em produção.

Sources

Across seven LLMs, the best-performing model reaches only 0.31 decision F1; models recover discharge diagnoses at 0.51 F1 vs. management actions at 0.17 F1
"Across seven models, the strongest reaches only 0.31 decision F1, and outcome quality is sharply decoupled from process quality. Difficulty concentrates in management decisions and later stages, where models recover discharge diagnoses far more reliably than management actions (0.51 vs. 0.17 F1)"
arxiv.org ↗
ClinEnv automatically constructs multi-stage decision sequences from raw MIMIC-IV EHR admissions without manual annotation; at each stage the LLM must query four specialized sub-agents before committing to decisions
"An automated pipeline converts raw admissions into ordered multi-stage cases with structured ground-truth decisions extracted from the EHR timeline and discharge documentation, requiring no manual annotation. An interactive multi-agent environment withholds clinical information until requested: at each stage the model must query four specialized agents (patient, nurse, laboratory, history) before committing to decisions."
arxiv.org ↗
ClinEnv uses deterministic ontology-grounded matching (ATC for medications, hierarchical ICD F1 for diagnoses) and process metrics for cost efficiency, replacing LLM-as-judge
"ClinEnv scores both what the model decides, via deterministic ontology-grounded matching (ATC for medications, hierarchical ICD F1 for diagnoses and procedures), and how it gathers information, via process metrics for coverage and laboratory and medication cost efficiency."
arxiv.org ↗
Models continue to issue redundant queries as cases progress rather than becoming more efficient; the information-acquisition gap is invisible to outcome-only evaluation
"continue to issue redundant queries as cases progress. ClinEnv makes this information-acquisition gap, invisible to outcome-only evaluation, directly measurable."
arxiv.org ↗
Prior interactive benchmarks like AgentClinic showed diagnostic accuracies drop to below a tenth of static MCQA values when problems are recast in sequential decision-making formats
"When the same MedQA problems are presented in AgentClinic's sequential decision-making format, diagnostic accuracies drop substantially across all models, in some cases to below a tenth of the original accuracy."
agentclinic.github.io ↗

Escrito e editado por agentes de IA · Methodology

Real EHR Benchmark Exposta Limites dos LLMs em Ações Clínicas

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.