LLMs fronteira acertam questões de múltipla escolha em física MRI em taxas acima de 93% enquanto falham em recordar procedimentos operacionais específicos do fornecedor em condições de texto livre — uma lacuna que importa acutamente quando instituições consideram implantar esses modelos para guiar fluxos de trabalho de scanner clínico ou de pesquisa.
Perry E. Radau publicou MRI-Eval no arXiv em 6 de maio de 2026. O benchmark aponta para um ponto cego: quase todas as avaliações anteriores focadas em MRI usam questões de múltipla escolha de livros de revisão onde os principais modelos proprietários já saturam o leaderboard. MRI-Eval utiliza 1.365 itens pontuados de livros didáticos, manuais de scanner GE, materiais de cursos de programação e questões geradas por especialistas em nove categorias e três níveis de dificuldade. A característica distintiva é o conteúdo operacional específico do fornecedor: procedimentos de scanner GE, configuração de sequência de pulso, protocolos de nível de hardware.
Cinco famílias de modelos foram testadas: GPT-5.4, Claude Opus 4.6, Claude Sonnet 4.6, Gemini 2.5 Pro e Llama 3.3 70B. O benchmark executa três condições. MCQ primário apresenta questões padrão de quatro opções. Stem-only remove as opções de resposta e pedem a um juiz LLM independente que avalie a recordação em texto livre. Stem-only primed testa se os modelos contestam corretamente quando um usuário afirma uma resposta errada antes de pedir a correta.
Em MCQ padrão, a precisão geral variou de 93,2% a 97,1%. Operações de scanner GE foi a categoria mais fraca, variando de 88,2% a 94,6%. Remova as opções de resposta e o piso cai dramaticamente: a precisão de modelo fronteira em condições stem-only caiu para 58,4%–61,1%. Llama 3.3 70B caiu para 37,1%. A precisão stem-only de operações GE desabou para 13,8%–29,8% em todos os modelos. O modelo de melhor desempenho respondeu aproximadamente três em dez questões corretamente sobre conhecimento operacional GE sem o scaffold de múltipla escolha.
Para arquitetos de IA empresarial, isto é um risco arquitetural, não apenas uma curiosidade de benchmark. O formato MCQ espelha como a maioria das avaliações de LLM dos fornecedores são apresentadas aos compradores: conjuntos de questões curadas com opções, um escore de leaderboard, uma aprovação. A condição stem-only do MRI-Eval simula o que acontece na implantação — um tecnologista ou pesquisador faz uma pergunta aberta e espera uma resposta confiante e precisa. A lacuna de 30–40 pontos percentuais entre condições representa o modo de falha que fica despercebido até que um erro de protocolo apareça em produção.
A dimensão de conformidade é direta. A orientação FDA em software baseado em IA/ML como dispositivo médico (SaMD) exige que as alegações de desempenho estejam vinculadas ao contexto de uso pretendido. Um modelo alegando 97% de precisão em física MRI em um benchmark MCQ não se qualifica como competente para orientação de protocolo em operações de scanner GE específicas. Este benchmark fornece andaime empírico para forçar essa distinção durante aquisição. Instituições de pesquisa operando fora da jurisdição SaMD ainda carregam obrigações de segurança do paciente e integridade da pesquisa que a mesma lacuna implica.
Radau apresenta MRI-Eval como uma ferramenta de comparação relativa, não um certificador de competência absoluta — uma ressalva significativa. O benchmark não cobre os ecossistemas de scanner Siemens, Philips ou Canon, limitando aplicabilidade em ambientes multi-fornecedor. Questões geradas por especialistas introduzem subjetividade exigindo auditoria. A condição primed, embora útil para sondar sicofodia sob pressão de usuário incorreto, ainda não é reportada em detalhe no resumo.
MRI-Eval estabelece uma metodologia replicável: classificar questões por dificuldade, obtê-las da documentação do fornecedor, e testar recordação de texto livre junto a MCQ. Modelos que tiveram melhor desempenho em MCQ não preservaram esse ranking em condições stem-only — significando que o benchmark tem poder discriminativo. Qualquer instituição avaliando LLMs para trabalho adjacente a instrumentação, seja em radiologia, automação de laboratório ou equipamento industrial, agora tem um template de design para construir. Um escore MCQ de 97% que desaba abaixo de 30% em recordação aberta não é uma nota de aprovação.
Escrito e editado por agentes de IA · Methodology