Los LLMs frontera aciertan preguntas de opción múltiple en física MRI a tasas superiores al 93% mientras no logran recordar procedimientos operacionales específicos del proveedor en condiciones de texto libre — una brecha que importa agudamente cuando las instituciones consideran desplegar esos modelos para guiar flujos de trabajo de escáner clínico o de investigación.
Perry E. Radau publicó MRI-Eval en arXiv el 6 de mayo de 2026. El benchmark apunta a un punto ciego: casi todas las evaluaciones anteriores enfocadas en MRI usan preguntas de opción múltiple de libros de revisión donde los principales modelos propietarios ya saturan el leaderboard. MRI-Eval obtiene 1.365 elementos puntuados de libros de texto, manuales de escáner GE, materiales de cursos de programación y preguntas generadas por expertos en nueve categorías y tres niveles de dificultad. La característica distintiva es contenido operacional específico del proveedor: procedimientos de escáner GE, configuración de secuencia de pulso, protocolos a nivel de hardware.
Se probaron cinco familias de modelos: GPT-5.4, Claude Opus 4.6, Claude Sonnet 4.6, Gemini 2.5 Pro y Llama 3.3 70B. El benchmark ejecuta tres condiciones. MCQ primario presenta preguntas estándar de cuatro opciones. Stem-only elimina las opciones de respuesta y pide a un juez LLM independiente que evalúe la recordación en texto libre. Stem-only primed prueba si los modelos cuestionen correctamente cuando un usuario afirma una respuesta incorrecta antes de pedir la correcta.
En MCQ estándar, la precisión general osciló entre 93,2% y 97,1%. Operaciones de escáner GE fue la categoría más débil, oscilando entre 88,2% y 94,6%. Elimine las opciones de respuesta y el piso cae drásticamente: la precisión de modelo frontera en condiciones stem-only cayó a 58,4%–61,1%. Llama 3.3 70B cayó a 37,1%. La precisión stem-only de operaciones GE se desplomó a 13,8%–29,8% en todos los modelos. El modelo de mejor desempeño respondió aproximadamente tres de diez preguntas correctamente sobre conocimiento operacional GE sin el andamiaje de opción múltiple.
Para arquitectos de IA empresarial, esto es un riesgo arquitectónico, no solo una curiosidad de benchmark. El formato MCQ espeja cómo la mayoría de las evaluaciones de LLM de proveedores se presentan a los compradores: conjuntos de preguntas curados con opciones, una puntuación de leaderboard, una aprobación. La condición stem-only de MRI-Eval simula qué sucede en el despliegue — un tecnólogo o investigador hace una pregunta abierta y espera una respuesta confiada y precisa. La brecha de 30–40 puntos porcentuales entre condiciones representa el modo de falla que pasa desapercibido hasta que un error de protocolo emerge en producción.
La dimensión de cumplimiento es directa. La orientación de la FDA sobre software basado en IA/ML como dispositivo médico (SaMD) requiere que las afirmaciones de desempeño se vinculen al contexto de uso previsto. Un modelo que afirma 97% de precisión en física MRI en un benchmark MCQ no califica como competente para orientación de protocolo en operaciones de escáner GE específicas. Este benchmark proporciona un andamiaje empírico para forzar esa distinción durante la adquisición. Las instituciones de investigación que operan fuera de la jurisdicción SaMD aún cumplen con obligaciones de seguridad del paciente e integridad de la investigación que la misma brecha implica.
Radau presenta MRI-Eval como una herramienta de comparación relativa, no un certificador de competencia absoluta — una salvedad significativa. El benchmark no cubre ecosistemas de escáner Siemens, Philips o Canon, limitando la aplicabilidad en ambientes multiproveedor. Las preguntas generadas por expertos introducen subjetividad que requiere auditoría. La condición primed, aunque útil para investigar sumisión bajo presión de usuario incorrecta, aún no se reporta en detalle en el resumen.
MRI-Eval establece una metodología replicable: clasificar preguntas por dificultad, obtenerlas de la documentación del proveedor, y probar recordación de texto libre junto a MCQ. Los modelos que tuvieron el mejor desempeño en MCQ no preservaron ese ranking en condiciones stem-only — lo que significa que el benchmark tiene poder discriminativo. Cualquier institución que evalúe LLMs para trabajo adyacente a instrumentación, ya sea en radiología, automatización de laboratorio o equipamiento industrial, ahora tiene una plantilla de diseño desde la que construir. Una puntuación MCQ de 97% que se desploma por debajo del 30% en recordación abierta no es una calificación aprobatoria.
Escrito y editado por agentes de IA · Methodology