Qualidade da evidência, não escala do modelo, reduz erros em LLMs clínicos

Aumentar o tamanho do modelo não reduz erros clínicos onde mais importa. Um estudo de benchmark com 34 Large Language Models implementados localmente em seis configurações clínicas encontra que a acurácia agregada pode subir acentuadamente enquanto as taxas de erros de alto risco permanecem perigosamente elevadas.

A pesquisa introduz SaFE-Scale, um framework que rastreia segurança de LLMs clínicos conforme tamanho do modelo, complexidade de retrieval, janela de contexto e compute aumentam. O time construiu RadSaFE-200: 200 questões de radiologia anotadas por clínicos com labels para erro de alto risco, resposta insegura e contradição de evidência. As questões abrangem duas condições de evidência — limpa e conflitante — em seis configurações de implantação: zero-shot closed-book, clean-evidence, conflict-evidence, standard RAG, agentic RAG e max-context prompting.

Qualidade de evidência conduz segurança. Fornecer evidência limpa e curada elevou acurácia média de 73.5% para 94.1% enquanto reduziu erros de alto risco de 12.0% para 2.6%, contradições de evidência de 12.7% para 2.3% e excesso de confiança perigoso de 8.0% para 1.6%. Standard RAG e agentic RAG falharam em reproduzir esse perfil de segurança. Agentic RAG superou standard RAG em acurácia e reduziu taxas de contradição, mas erro de alto risco e excesso de confiança perigoso permaneceram elevados. Max-context prompting adicionou latência sem fechar a lacuna de segurança. Compute adicional em tempo de inferência produziu apenas ganhos marginais.

Para equipes de saúde empresariais, isso inverte uma suposição comum de procurement: que acurácia maior ou um modelo com mais parâmetros é inerentemente mais seguro. A análise de worst-case do estudo encontrou que erros clinicamente consequentes se concentram em um pequeno subconjunto de questões. Scores de benchmark agregados podem mascarar modos de falha localizados que carregam o maior peso clínico. Um modelo com score no 90º percentil geral ainda pode gerar respostas confiantes, que contradizem evidência, nos casos exatos onde mais importa.

Os achados complicam a onda atual de arquiteturas clínicas de IA agentic. Agentic RAG — onde modelos autonomamente recuperam e sintetizam evidência externa — é amplamente posicionado como um caminho para acurácia maior e cobertura de contexto mais ampla. Agentic RAG resolve algumas categorias de falha enquanto deixa outras intactas, particularmente excesso de confiança perigoso e altas taxas de erro de alto risco. Qualquer pipeline agentic destinado a implantação clínica precisa de avaliação de segurança específica, não apenas benchmarks de acurácia, antes de aprovação.

RadSaFE-200 cobre radiologia apenas. Os 34 modelos foram rodados localmente, então modelos frontier hospedados via API caem fora do escopo deste estudo. Generalizar o framework para outras especialidades ou famílias de modelos proprietários requer benchmark adicional sob as mesmas condições com labels de segurança.

Segurança de LLM clínico é uma propriedade de implantação, moldada por qualidade de evidência, design de retrieval e construção de contexto — não uma consequência passiva de escala. Organizações de saúde buscando aprovação regulatória ou interna para implantação de IA clínica devem tratar avaliação de segurança como um workstream distinto de benchmark de acurácia. Análise de concentração de falha no worst-case deve ser incorporada aos critérios desde o início.

Sources

34 locally deployed LLMs evaluated across six deployment conditions
"We evaluated 34 locally deployed LLMs across six deployment conditions: closed-book prompting (zero-shot), clean evidence, conflict evidence, standard RAG, agentic RAG, and max-context prompting."
arxiv.org ↗
RadSaFE-200 contains 200 radiology multiple-choice questions with clinician-defined option-level labels for high-risk error, unsafe answer, and evidence contradiction
"we introduce RadSaFE-200, a Radiology Safety-Focused Evaluation benchmark of 200 multiple-choice questions with clinician-defined clean evidence, conflict evidence, and option-level labels for high-risk error, unsafe answer, and evidence contradiction."
arxiv.org ↗
Clean evidence increased mean accuracy from 73.5% to 94.1%
"Clean evidence produced the strongest improvement, increasing mean accuracy from 73.5% to 94.1%"
arxiv.org ↗
Clean evidence reduced high-risk error from 12.0% to 2.6%
"reducing high-risk error from 12.0% to 2.6%"
arxiv.org ↗
Clean evidence reduced contradiction from 12.7% to 2.3%
"contradiction from 12.7% to 2.3%"
arxiv.org ↗
Clean evidence reduced dangerous overconfidence from 8.0% to 1.6%
"dangerous overconfidence from 8.0% to 1.6%"
arxiv.org ↗
Agentic RAG improved accuracy over standard RAG and reduced contradiction, but high-risk error and dangerous overconfidence remained elevated
"agentic RAG improved accuracy over standard RAG and reduced contradiction, but high-risk error and dangerous overconfidence remained elevated."
arxiv.org ↗
Max-context prompting increased latency without closing the safety gap; additional inference-time compute produced only limited gains
"Max-context prompting increased latency without closing the safety gap, and additional inference-time compute produced only limited gains."
arxiv.org ↗
Clinically consequential errors concentrated in a small subset of questions
"Worst-case analysis showed that clinically consequential errors concentrated in a small subset of questions."
arxiv.org ↗
Clinical LLM safety is a deployment property shaped by evidence quality, retrieval design, and context construction — not a passive consequence of scaling
"Clinical LLM safety is therefore not a passive consequence of scaling, but a deployment property shaped by evidence quality, retrieval design, context construction, and collective failure behavior."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Qualidade da evidência, não escala do modelo, reduz erros em LLMs clínicos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.