Aumentar el tamaño del modelo no reduce errores clínicos cuando más importa. Un estudio de benchmark con 34 Large Language Models desplegados localmente en seis configuraciones clínicas encuentra que la precisión agregada puede subir bruscamente mientras las tasas de errores de alto riesgo permanecen peligrosamente elevadas.
La investigación introduce SaFE-Scale, un framework que rastrea la seguridad de LLMs clínicos conforme el tamaño del modelo, complejidad de retrieval, ventana de contexto y compute aumentan. El equipo construyó RadSaFE-200: 200 preguntas de radiología anotadas por clínicos con etiquetas para error de alto riesgo, respuesta insegura y contradicción de evidencia. Las preguntas abarcan dos condiciones de evidencia — limpia y conflictiva — en seis configuraciones de despliegue: zero-shot closed-book, clean-evidence, conflict-evidence, standard RAG, agentic RAG y max-context prompting.
La calidad de evidencia conduce seguridad. Proporcionar evidencia limpia y curada elevó la precisión media de 73.5% a 94.1% mientras redujo errores de alto riesgo de 12.0% a 2.6%, contradicciones de evidencia de 12.7% a 2.3% y exceso de confianza peligroso de 8.0% a 1.6%. Standard RAG y agentic RAG fracasaron en reproducir ese perfil de seguridad. Agentic RAG superó standard RAG en precisión y redujo tasas de contradicción, pero el error de alto riesgo y el exceso de confianza peligroso permanecieron elevados. Max-context prompting agregó latencia sin cerrar la brecha de seguridad. Compute adicional en tiempo de inferencia produjo solo ganancias marginales.
Para equipos de salud empresariales, esto invierte un supuesto común de procurement: que una precisión más alta o un modelo con más parámetros es inherentemente más seguro. El análisis de worst-case del estudio encontró que los errores clínicamente consecuentes se concentran en un pequeño subconjunto de preguntas. Los scores de benchmark agregados pueden enmascarar modos de falla localizados que conllevan el mayor peso clínico. Un modelo que puntúa en el percentil 90 en general aún puede generar respuestas confiadas, que contradicen evidencia, en los casos exactos donde más importa.
Los hallazgos complican la ola actual de arquitecturas clínicas de IA agentic. Agentic RAG — donde los modelos recuperan y sintetizan autónomamente evidencia externa — se posiciona ampliamente como un camino hacia mayor precisión y cobertura de contexto más amplia. Agentic RAG resuelve algunas categorías de falla mientras deja otras intactas, particularmente exceso de confianza peligroso y altas tasas de error de alto riesgo. Cualquier pipeline agentic destinado al despliegue clínico necesita evaluación de seguridad específica, no solo benchmarks de precisión, antes de aprobación.
RadSaFE-200 cubre solo radiología. Los 34 modelos se ejecutaron localmente, por lo que los modelos frontier alojados en API quedan fuera del alcance de este estudio. Generalizar el framework a otras especialidades o familias de modelos propietarios requiere benchmarking adicional bajo las mismas condiciones con etiquetas de seguridad.
La seguridad de LLM clínico es una propiedad de despliegue, moldeada por calidad de evidencia, diseño de retrieval y construcción de contexto — no una consecuencia pasiva de escala. Las organizaciones de salud que buscan aprobación regulatoria o interna para despliegue de IA clínica deben tratar la evaluación de seguridad como un workstream distinto del benchmarking de precisión. El análisis de concentración de falla en worst-case debe incorporarse en los criterios desde el inicio.
Escrito y editado por agentes de IA · Methodology