MRI-Eval Encontra LLMs com 97% em Flashcards, 30% em Recordação Livre

LLMs fronteira acertam questões de múltipla escolha em física MRI em taxas acima de 93% enquanto falham em recordar procedimentos operacionais específicos do fornecedor em condições de texto livre — uma lacuna que importa acutamente quando instituições consideram implantar esses modelos para guiar fluxos de trabalho de scanner clínico ou de pesquisa.

Perry E. Radau publicou MRI-Eval no arXiv em 6 de maio de 2026. O benchmark aponta para um ponto cego: quase todas as avaliações anteriores focadas em MRI usam questões de múltipla escolha de livros de revisão onde os principais modelos proprietários já saturam o leaderboard. MRI-Eval utiliza 1.365 itens pontuados de livros didáticos, manuais de scanner GE, materiais de cursos de programação e questões geradas por especialistas em nove categorias e três níveis de dificuldade. A característica distintiva é o conteúdo operacional específico do fornecedor: procedimentos de scanner GE, configuração de sequência de pulso, protocolos de nível de hardware.

Cinco famílias de modelos foram testadas: GPT-5.4, Claude Opus 4.6, Claude Sonnet 4.6, Gemini 2.5 Pro e Llama 3.3 70B. O benchmark executa três condições. MCQ primário apresenta questões padrão de quatro opções. Stem-only remove as opções de resposta e pedem a um juiz LLM independente que avalie a recordação em texto livre. Stem-only primed testa se os modelos contestam corretamente quando um usuário afirma uma resposta errada antes de pedir a correta.

Em MCQ padrão, a precisão geral variou de 93,2% a 97,1%. Operações de scanner GE foi a categoria mais fraca, variando de 88,2% a 94,6%. Remova as opções de resposta e o piso cai dramaticamente: a precisão de modelo fronteira em condições stem-only caiu para 58,4%–61,1%. Llama 3.3 70B caiu para 37,1%. A precisão stem-only de operações GE desabou para 13,8%–29,8% em todos os modelos. O modelo de melhor desempenho respondeu aproximadamente três em dez questões corretamente sobre conhecimento operacional GE sem o scaffold de múltipla escolha.

Para arquitetos de IA empresarial, isto é um risco arquitetural, não apenas uma curiosidade de benchmark. O formato MCQ espelha como a maioria das avaliações de LLM dos fornecedores são apresentadas aos compradores: conjuntos de questões curadas com opções, um escore de leaderboard, uma aprovação. A condição stem-only do MRI-Eval simula o que acontece na implantação — um tecnologista ou pesquisador faz uma pergunta aberta e espera uma resposta confiante e precisa. A lacuna de 30–40 pontos percentuais entre condições representa o modo de falha que fica despercebido até que um erro de protocolo apareça em produção.

A dimensão de conformidade é direta. A orientação FDA em software baseado em IA/ML como dispositivo médico (SaMD) exige que as alegações de desempenho estejam vinculadas ao contexto de uso pretendido. Um modelo alegando 97% de precisão em física MRI em um benchmark MCQ não se qualifica como competente para orientação de protocolo em operações de scanner GE específicas. Este benchmark fornece andaime empírico para forçar essa distinção durante aquisição. Instituições de pesquisa operando fora da jurisdição SaMD ainda carregam obrigações de segurança do paciente e integridade da pesquisa que a mesma lacuna implica.

Radau apresenta MRI-Eval como uma ferramenta de comparação relativa, não um certificador de competência absoluta — uma ressalva significativa. O benchmark não cobre os ecossistemas de scanner Siemens, Philips ou Canon, limitando aplicabilidade em ambientes multi-fornecedor. Questões geradas por especialistas introduzem subjetividade exigindo auditoria. A condição primed, embora útil para sondar sicofodia sob pressão de usuário incorreto, ainda não é reportada em detalhe no resumo.

MRI-Eval estabelece uma metodologia replicável: classificar questões por dificuldade, obtê-las da documentação do fornecedor, e testar recordação de texto livre junto a MCQ. Modelos que tiveram melhor desempenho em MCQ não preservaram esse ranking em condições stem-only — significando que o benchmark tem poder discriminativo. Qualquer instituição avaliando LLMs para trabalho adjacente a instrumentação, seja em radiologia, automação de laboratório ou equipamento industrial, agora tem um template de design para construir. Um escore MCQ de 97% que desaba abaixo de 30% em recordação aberta não é uma nota de aprovação.

Sources

MRI-Eval includes 1,365 scored items across nine categories and three difficulty tiers from textbooks, GE scanner manuals, programming course materials, and expert-generated questions
"MRI-Eval includes 1365 scored items across nine categories and three difficulty tiers from textbooks, GE scanner manuals, programming course materials, and expert-generated questions."
arxiv.org ↗
Five model families evaluated: GPT-5.4, Claude Opus 4.6, Claude Sonnet 4.6, Gemini 2.5 Pro, and Llama 3.3 70B
"Five model families were evaluated (GPT-5.4, Claude Opus 4.6, Claude Sonnet 4.6, Gemini 2.5 Pro, Llama 3.3 70B)."
arxiv.org ↗
Overall MCQ accuracy ranged from 93.2% to 97.1% across all models
"Overall MCQ accuracy was 93.2% to 97.1%."
arxiv.org ↗
GE scanner operations was the lowest MCQ category for every model, ranging from 88.2% to 94.6%
"GE scanner operations was the lowest category for every model (88.2% to 94.6%)."
arxiv.org ↗
In stem-only conditions, frontier model accuracy fell to 58.4%–61.1%; Llama 3.3 70B fell to 37.1%
"In stem-only, frontier-model accuracy fell to 58.4% to 61.1%, and Llama 3.3 70B fell to 37.1%."
arxiv.org ↗
GE scanner operations stem-only accuracy collapsed to 13.8%–29.8% across all models
"GE scanner operations stem-only accuracy was 13.8% to 29.8%."
arxiv.org ↗
MRI-Eval is described as a relative comparison benchmark and supports caution in using raw LLM outputs for GE-specific protocol guidance
"MRI-Eval is most informative as a relative comparison benchmark rather than an absolute competency measure and supports caution in using raw LLM outputs for GE-specific protocol guidance."
arxiv.org ↗
Existing MRI LLM benchmarks rely mainly on review-book multiple-choice questions, where top proprietary models already score highly, limiting discrimination
"Existing MRI LLM benchmarks rely mainly on review-book multiple-choice questions, where top proprietary models already score highly, limiting discrimination."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

MRI-Eval Encontra LLMs com 97% em Flashcards, 30% em Recordação Livre

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.