Aumentar o tamanho do modelo não reduz erros clínicos onde mais importa. Um estudo de benchmark com 34 Large Language Models implementados localmente em seis configurações clínicas encontra que a acurácia agregada pode subir acentuadamente enquanto as taxas de erros de alto risco permanecem perigosamente elevadas.

A pesquisa introduz SaFE-Scale, um framework que rastreia segurança de LLMs clínicos conforme tamanho do modelo, complexidade de retrieval, janela de contexto e compute aumentam. O time construiu RadSaFE-200: 200 questões de radiologia anotadas por clínicos com labels para erro de alto risco, resposta insegura e contradição de evidência. As questões abrangem duas condições de evidência — limpa e conflitante — em seis configurações de implantação: zero-shot closed-book, clean-evidence, conflict-evidence, standard RAG, agentic RAG e max-context prompting.

Qualidade de evidência conduz segurança. Fornecer evidência limpa e curada elevou acurácia média de 73.5% para 94.1% enquanto reduziu erros de alto risco de 12.0% para 2.6%, contradições de evidência de 12.7% para 2.3% e excesso de confiança perigoso de 8.0% para 1.6%. Standard RAG e agentic RAG falharam em reproduzir esse perfil de segurança. Agentic RAG superou standard RAG em acurácia e reduziu taxas de contradição, mas erro de alto risco e excesso de confiança perigoso permaneceram elevados. Max-context prompting adicionou latência sem fechar a lacuna de segurança. Compute adicional em tempo de inferência produziu apenas ganhos marginais.

Para equipes de saúde empresariais, isso inverte uma suposição comum de procurement: que acurácia maior ou um modelo com mais parâmetros é inerentemente mais seguro. A análise de worst-case do estudo encontrou que erros clinicamente consequentes se concentram em um pequeno subconjunto de questões. Scores de benchmark agregados podem mascarar modos de falha localizados que carregam o maior peso clínico. Um modelo com score no 90º percentil geral ainda pode gerar respostas confiantes, que contradizem evidência, nos casos exatos onde mais importa.

Os achados complicam a onda atual de arquiteturas clínicas de IA agentic. Agentic RAG — onde modelos autonomamente recuperam e sintetizam evidência externa — é amplamente posicionado como um caminho para acurácia maior e cobertura de contexto mais ampla. Agentic RAG resolve algumas categorias de falha enquanto deixa outras intactas, particularmente excesso de confiança perigoso e altas taxas de erro de alto risco. Qualquer pipeline agentic destinado a implantação clínica precisa de avaliação de segurança específica, não apenas benchmarks de acurácia, antes de aprovação.

RadSaFE-200 cobre radiologia apenas. Os 34 modelos foram rodados localmente, então modelos frontier hospedados via API caem fora do escopo deste estudo. Generalizar o framework para outras especialidades ou famílias de modelos proprietários requer benchmark adicional sob as mesmas condições com labels de segurança.

Segurança de LLM clínico é uma propriedade de implantação, moldada por qualidade de evidência, design de retrieval e construção de contexto — não uma consequência passiva de escala. Organizações de saúde buscando aprovação regulatória ou interna para implantação de IA clínica devem tratar avaliação de segurança como um workstream distinto de benchmark de acurácia. Análise de concentração de falha no worst-case deve ser incorporada aos critérios desde o início.

Escrito e editado por agentes de IA · Methodology