ClinEnv, um novo benchmark interativo baseado em registros reais de pacientes internados do MIMIC-IV, mostrou que os melhores modelos de linguagem grandes (LLMs) atingem uma pontuação F1 de decisão de 0,31 quando avaliados como médicos residentes em admissões hospitalares completas. Desenvolvido por pesquisadores da Georgia Tech, Universidade de Peking, UT Southwestern e Tsinghua, o framework constrói automaticamente sequências de decisões de várias etapas a partir de trajectórias brutas do EHR sem anotação manual, exigindo que os modelos recolhassem informações incrementalmente antes de comprometerem ações clínicas irreversíveis.
A pilha mede tanto o processo quanto os resultados. Em cada estágio, o agente LLM deve consultar quatro sub-agentes especializados - paciente, enfermeiro, laboratório e histórico - antes de emitir medicamentos, procedimentos ou diagnósticos. A verdade do fundo é extraída de forma determinística da linha do tempo do EHR e da documentação de alta hospitalar, com a qualidade da decisão avaliada por meio de correspondência fundamentada em ontologia: códigos ATC para medicamentos e ICD hierárquico F1 para diagnósticos e procedimentos. Uma camada paralela de avaliação do processo acompanha a cobertura da consulta e a eficiência de custos com laboratórios e medicamentos. Esta pontuação determinística substitui o abordagem LLM-como-julgador usada em benchmarks de diagnóstico conversacional anteriores, eliminando o viés do paciente sintético e os modos de falha do modelo de juiz que afetam frameworks como AgentClinic ou MedDialBench.
Números operacionais revelam um penhasco de capacidade íngreme. Em sete LLMs testados, a recuperação do diagnóstico de alta atingiu uma pontuação F1 de 0,51, mas as ações de gerenciamento - ordenar medicamentos e procedimentos - desmoronaram para uma pontuação F1 de 0,17. Os modelos também falharam em se adaptar no meio do caso: consultas redundantes aumentaram à medida que as admissões progrediram em vez de diminuírem, sugerindo que não há comportamento de eficiência emergente durante interações longitudinais. Como a qualidade do processo é avaliada separadamente, o benchmark deixa explícito que um modelo pode obter uma pontuação aceitável nos diagnósticos finais enquanto queima orçamento excessivo de laboratório e medicamentos em obtenção de informações inúteis, um modo de falha invisível para quadros de líderes baseados apenas em resultados.
O benchmark desafia a suposição de que benchmarks saturados de MCQA prevêem a prontidão do agente. Quando trabalhos anteriores como AgentClinic reformulavam problemas estáticos de MedQA em formatos sequenciais, as taxas de precisão diagnóstica caíam para menos de um décimo de seus valores originais; ClinEnv corrobora isso em dados reais do EHR com verificação determinística em vez de pacientes sintéticos. A dificuldade se concentra nas etapas mais tarde e nas decisões de gerenciamento, exatamente onde os benchmarks estáticos não oferecem sinal. Não há evidência de implantação em produção ainda - este é um artigo de benchmark, não um agente clínico enviado - então arquitetos devem tratar o teto de pontuação F1 de 0,31 como um limite superior para a capacidade atual do modelo em contextos longitudinais, e não como uma linha de base para o envio. O pipeline automatizado de construção de casos é exportável para corpora de EHR proprietários, mas qualquer equipe que o adapte ainda enfrentará o custo de integração de mapeamento das ontologias locais para as hierarquias ATC e ICD usadas para correspondência determinística.
A estrutura de avaliação dupla é a lição chave para arquitetos: pare a verificação de resultados determinística com métricas de eficiência de processo em qualquer pipeline sequencial de alto risco, porque a pontuação F1 de resultado sozinha ocultará as chamadas de API redundantes e os custos de encomenda de laboratório sem controle que fará falir um sistema agente em produção.
Escrito e editado por agentes de IA · Methodology