MRI-Eval Encuentra LLMs con 97% en Tarjetas de Estudio, 30% en Recordación Abierta

Los LLMs frontera aciertan preguntas de opción múltiple en física MRI a tasas superiores al 93% mientras no logran recordar procedimientos operacionales específicos del proveedor en condiciones de texto libre — una brecha que importa agudamente cuando las instituciones consideran desplegar esos modelos para guiar flujos de trabajo de escáner clínico o de investigación.

Perry E. Radau publicó MRI-Eval en arXiv el 6 de mayo de 2026. El benchmark apunta a un punto ciego: casi todas las evaluaciones anteriores enfocadas en MRI usan preguntas de opción múltiple de libros de revisión donde los principales modelos propietarios ya saturan el leaderboard. MRI-Eval obtiene 1.365 elementos puntuados de libros de texto, manuales de escáner GE, materiales de cursos de programación y preguntas generadas por expertos en nueve categorías y tres niveles de dificultad. La característica distintiva es contenido operacional específico del proveedor: procedimientos de escáner GE, configuración de secuencia de pulso, protocolos a nivel de hardware.

Se probaron cinco familias de modelos: GPT-5.4, Claude Opus 4.6, Claude Sonnet 4.6, Gemini 2.5 Pro y Llama 3.3 70B. El benchmark ejecuta tres condiciones. MCQ primario presenta preguntas estándar de cuatro opciones. Stem-only elimina las opciones de respuesta y pide a un juez LLM independiente que evalúe la recordación en texto libre. Stem-only primed prueba si los modelos cuestionen correctamente cuando un usuario afirma una respuesta incorrecta antes de pedir la correcta.

En MCQ estándar, la precisión general osciló entre 93,2% y 97,1%. Operaciones de escáner GE fue la categoría más débil, oscilando entre 88,2% y 94,6%. Elimine las opciones de respuesta y el piso cae drásticamente: la precisión de modelo frontera en condiciones stem-only cayó a 58,4%–61,1%. Llama 3.3 70B cayó a 37,1%. La precisión stem-only de operaciones GE se desplomó a 13,8%–29,8% en todos los modelos. El modelo de mejor desempeño respondió aproximadamente tres de diez preguntas correctamente sobre conocimiento operacional GE sin el andamiaje de opción múltiple.

Para arquitectos de IA empresarial, esto es un riesgo arquitectónico, no solo una curiosidad de benchmark. El formato MCQ espeja cómo la mayoría de las evaluaciones de LLM de proveedores se presentan a los compradores: conjuntos de preguntas curados con opciones, una puntuación de leaderboard, una aprobación. La condición stem-only de MRI-Eval simula qué sucede en el despliegue — un tecnólogo o investigador hace una pregunta abierta y espera una respuesta confiada y precisa. La brecha de 30–40 puntos porcentuales entre condiciones representa el modo de falla que pasa desapercibido hasta que un error de protocolo emerge en producción.

La dimensión de cumplimiento es directa. La orientación de la FDA sobre software basado en IA/ML como dispositivo médico (SaMD) requiere que las afirmaciones de desempeño se vinculen al contexto de uso previsto. Un modelo que afirma 97% de precisión en física MRI en un benchmark MCQ no califica como competente para orientación de protocolo en operaciones de escáner GE específicas. Este benchmark proporciona un andamiaje empírico para forzar esa distinción durante la adquisición. Las instituciones de investigación que operan fuera de la jurisdicción SaMD aún cumplen con obligaciones de seguridad del paciente e integridad de la investigación que la misma brecha implica.

Radau presenta MRI-Eval como una herramienta de comparación relativa, no un certificador de competencia absoluta — una salvedad significativa. El benchmark no cubre ecosistemas de escáner Siemens, Philips o Canon, limitando la aplicabilidad en ambientes multiproveedor. Las preguntas generadas por expertos introducen subjetividad que requiere auditoría. La condición primed, aunque útil para investigar sumisión bajo presión de usuario incorrecta, aún no se reporta en detalle en el resumen.

MRI-Eval establece una metodología replicable: clasificar preguntas por dificultad, obtenerlas de la documentación del proveedor, y probar recordación de texto libre junto a MCQ. Los modelos que tuvieron el mejor desempeño en MCQ no preservaron ese ranking en condiciones stem-only — lo que significa que el benchmark tiene poder discriminativo. Cualquier institución que evalúe LLMs para trabajo adyacente a instrumentación, ya sea en radiología, automatización de laboratorio o equipamiento industrial, ahora tiene una plantilla de diseño desde la que construir. Una puntuación MCQ de 97% que se desploma por debajo del 30% en recordación abierta no es una calificación aprobatoria.

Sources

MRI-Eval includes 1,365 scored items across nine categories and three difficulty tiers from textbooks, GE scanner manuals, programming course materials, and expert-generated questions
"MRI-Eval includes 1365 scored items across nine categories and three difficulty tiers from textbooks, GE scanner manuals, programming course materials, and expert-generated questions."
arxiv.org ↗
Five model families evaluated: GPT-5.4, Claude Opus 4.6, Claude Sonnet 4.6, Gemini 2.5 Pro, and Llama 3.3 70B
"Five model families were evaluated (GPT-5.4, Claude Opus 4.6, Claude Sonnet 4.6, Gemini 2.5 Pro, Llama 3.3 70B)."
arxiv.org ↗
Overall MCQ accuracy ranged from 93.2% to 97.1% across all models
"Overall MCQ accuracy was 93.2% to 97.1%."
arxiv.org ↗
GE scanner operations was the lowest MCQ category for every model, ranging from 88.2% to 94.6%
"GE scanner operations was the lowest category for every model (88.2% to 94.6%)."
arxiv.org ↗
In stem-only conditions, frontier model accuracy fell to 58.4%–61.1%; Llama 3.3 70B fell to 37.1%
"In stem-only, frontier-model accuracy fell to 58.4% to 61.1%, and Llama 3.3 70B fell to 37.1%."
arxiv.org ↗
GE scanner operations stem-only accuracy collapsed to 13.8%–29.8% across all models
"GE scanner operations stem-only accuracy was 13.8% to 29.8%."
arxiv.org ↗
MRI-Eval is described as a relative comparison benchmark and supports caution in using raw LLM outputs for GE-specific protocol guidance
"MRI-Eval is most informative as a relative comparison benchmark rather than an absolute competency measure and supports caution in using raw LLM outputs for GE-specific protocol guidance."
arxiv.org ↗
Existing MRI LLM benchmarks rely mainly on review-book multiple-choice questions, where top proprietary models already score highly, limiting discrimination
"Existing MRI LLM benchmarks rely mainly on review-book multiple-choice questions, where top proprietary models already score highly, limiting discrimination."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

MRI-Eval Encuentra LLMs con 97% en Tarjetas de Estudio, 30% en Recordación Abierta

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.