OpenAI lanza GeneBench-Pro; avalia juízo de IA em 129 problemas genômicos multiestágio; GPT-5.6 Sol atinge 31,5%
<cite index="63-3,64-1">OpenAI lançou GeneBench-Pro, um benchmark de 129 problemas em 10 domínios primários e 21 subdomínios cobrindo genômica, biologia quantitativa e medicina translacional. Cada problema fornece a um agente um conjunto de dados realista e deliberadamente barulhento e um alvo estimado vinculado a uma decisão científica ou translacional posterior.</cite> <cite index="64-2">GeneBench-Pro testa o que OpenAI chama de 'research taste': a cadeia de julgamentos sobre quais perguntas um conjunto de dados pode apoiar, quando diagnósticos iniciais devem mudar o modelo e quando um resultado está pronto para decisão.</cite> <cite index="61-1">OpenAI submeteu 82 dos 129 problemas a especialistas de domínio externo, incluindo estudantes de pós-graduação, pesquisadores de pós-doutorado, cientistas da indústria e professores universitários, que avaliaram o realismo de cada problema e se a resposta alvo era identificável.</cite>
<cite index="63-2">GPT-5.6 Sol atinge taxa de aprovação de 28,7% no nível máximo de raciocínio, e GPT-5.6 Sol Pro atinge 31,5%; GPT-5.5 atinge 12%, GPT-5.4 atinge 8,9%, e Claude Opus 4.8 da Anthropic atinge 16%.</cite> <cite index="64-3">O dimensionamento de computação em tempo de teste mostra que no nível de raciocínio mais baixo GPT-5.6 Sol pontua em um dígito, e no mais alto resolve aproximadamente seis vezes mais perguntas que GPT-5.2 enquanto usa aproximadamente dois terços dos tokens.</cite> <cite index="63-2">Modelos frequentemente completam partes substanciais do fluxo de trabalho, mas exibem uma lacuna consistente entre notar e agir: identificam sinais diagnósticos locais mas falham em propagar implicações para decisões de análise correspondentes, selecionando estimadores errados ou persistindo em caminhos incorretos.</cite>
<cite index="61-3">Se agentes conseguem automatizar com segurança essa classe de análise, eles poderiam acelerar significativamente a descoberta científica. O fator limitante na pesquisa genômica em escala de biobancos está mudando da geração de dados para transformar a informação em ideias acionáveis; modelos que conseguem consistentemente realizar análises tratadas por equipes de especialistas humanos poderiam transformar pesquisa industrial acelerando triagem de hipóteses e acompanhamento de alvo.</cite> Para equipes de biotech e pesquisadores farmacêuticos avaliando ferramentas de IA para ciência, GeneBench-Pro mede a capacidade que determina se um agente auxilia descoberta ou produz com confiança respostas erradas. Os 60%+ de problemas abaixo da taxa de aprovação de 20% sinalam espaço abundante para investimento antes que modelos saturem o benchmark.