Calidad de evidencia, no escala del modelo, reduce errores en LLMs clínicos

Aumentar el tamaño del modelo no reduce errores clínicos cuando más importa. Un estudio de benchmark con 34 Large Language Models desplegados localmente en seis configuraciones clínicas encuentra que la precisión agregada puede subir bruscamente mientras las tasas de errores de alto riesgo permanecen peligrosamente elevadas.

La investigación introduce SaFE-Scale, un framework que rastrea la seguridad de LLMs clínicos conforme el tamaño del modelo, complejidad de retrieval, ventana de contexto y compute aumentan. El equipo construyó RadSaFE-200: 200 preguntas de radiología anotadas por clínicos con etiquetas para error de alto riesgo, respuesta insegura y contradicción de evidencia. Las preguntas abarcan dos condiciones de evidencia — limpia y conflictiva — en seis configuraciones de despliegue: zero-shot closed-book, clean-evidence, conflict-evidence, standard RAG, agentic RAG y max-context prompting.

La calidad de evidencia conduce seguridad. Proporcionar evidencia limpia y curada elevó la precisión media de 73.5% a 94.1% mientras redujo errores de alto riesgo de 12.0% a 2.6%, contradicciones de evidencia de 12.7% a 2.3% y exceso de confianza peligroso de 8.0% a 1.6%. Standard RAG y agentic RAG fracasaron en reproducir ese perfil de seguridad. Agentic RAG superó standard RAG en precisión y redujo tasas de contradicción, pero el error de alto riesgo y el exceso de confianza peligroso permanecieron elevados. Max-context prompting agregó latencia sin cerrar la brecha de seguridad. Compute adicional en tiempo de inferencia produjo solo ganancias marginales.

Para equipos de salud empresariales, esto invierte un supuesto común de procurement: que una precisión más alta o un modelo con más parámetros es inherentemente más seguro. El análisis de worst-case del estudio encontró que los errores clínicamente consecuentes se concentran en un pequeño subconjunto de preguntas. Los scores de benchmark agregados pueden enmascarar modos de falla localizados que conllevan el mayor peso clínico. Un modelo que puntúa en el percentil 90 en general aún puede generar respuestas confiadas, que contradicen evidencia, en los casos exactos donde más importa.

Los hallazgos complican la ola actual de arquitecturas clínicas de IA agentic. Agentic RAG — donde los modelos recuperan y sintetizan autónomamente evidencia externa — se posiciona ampliamente como un camino hacia mayor precisión y cobertura de contexto más amplia. Agentic RAG resuelve algunas categorías de falla mientras deja otras intactas, particularmente exceso de confianza peligroso y altas tasas de error de alto riesgo. Cualquier pipeline agentic destinado al despliegue clínico necesita evaluación de seguridad específica, no solo benchmarks de precisión, antes de aprobación.

RadSaFE-200 cubre solo radiología. Los 34 modelos se ejecutaron localmente, por lo que los modelos frontier alojados en API quedan fuera del alcance de este estudio. Generalizar el framework a otras especialidades o familias de modelos propietarios requiere benchmarking adicional bajo las mismas condiciones con etiquetas de seguridad.

La seguridad de LLM clínico es una propiedad de despliegue, moldeada por calidad de evidencia, diseño de retrieval y construcción de contexto — no una consecuencia pasiva de escala. Las organizaciones de salud que buscan aprobación regulatoria o interna para despliegue de IA clínica deben tratar la evaluación de seguridad como un workstream distinto del benchmarking de precisión. El análisis de concentración de falla en worst-case debe incorporarse en los criterios desde el inicio.

Sources

34 locally deployed LLMs evaluated across six deployment conditions
"We evaluated 34 locally deployed LLMs across six deployment conditions: closed-book prompting (zero-shot), clean evidence, conflict evidence, standard RAG, agentic RAG, and max-context prompting."
arxiv.org ↗
RadSaFE-200 contains 200 radiology multiple-choice questions with clinician-defined option-level labels for high-risk error, unsafe answer, and evidence contradiction
"we introduce RadSaFE-200, a Radiology Safety-Focused Evaluation benchmark of 200 multiple-choice questions with clinician-defined clean evidence, conflict evidence, and option-level labels for high-risk error, unsafe answer, and evidence contradiction."
arxiv.org ↗
Clean evidence increased mean accuracy from 73.5% to 94.1%
"Clean evidence produced the strongest improvement, increasing mean accuracy from 73.5% to 94.1%"
arxiv.org ↗
Clean evidence reduced high-risk error from 12.0% to 2.6%
"reducing high-risk error from 12.0% to 2.6%"
arxiv.org ↗
Clean evidence reduced contradiction from 12.7% to 2.3%
"contradiction from 12.7% to 2.3%"
arxiv.org ↗
Clean evidence reduced dangerous overconfidence from 8.0% to 1.6%
"dangerous overconfidence from 8.0% to 1.6%"
arxiv.org ↗
Agentic RAG improved accuracy over standard RAG and reduced contradiction, but high-risk error and dangerous overconfidence remained elevated
"agentic RAG improved accuracy over standard RAG and reduced contradiction, but high-risk error and dangerous overconfidence remained elevated."
arxiv.org ↗
Max-context prompting increased latency without closing the safety gap; additional inference-time compute produced only limited gains
"Max-context prompting increased latency without closing the safety gap, and additional inference-time compute produced only limited gains."
arxiv.org ↗
Clinically consequential errors concentrated in a small subset of questions
"Worst-case analysis showed that clinically consequential errors concentrated in a small subset of questions."
arxiv.org ↗
Clinical LLM safety is a deployment property shaped by evidence quality, retrieval design, and context construction — not a passive consequence of scaling
"Clinical LLM safety is therefore not a passive consequence of scaling, but a deployment property shaped by evidence quality, retrieval design, context construction, and collective failure behavior."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Calidad de evidencia, no escala del modelo, reduce errores en LLMs clínicos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.