O ABC-Bench da SecureBio demonstrou que agentes de LLM de fronteira, como o Grok 3, agora superam os biólogos credenciados em tarefas de laboratório autônomo com implicações em bioSegurança. O Grok 3 alcançou uma pontuação de 53% em três fluxos de trabalho de biologia dupla-utilização, mais do que dobrando a média de 24% de biólogos PhD com pelo menos dois anos de experiência em codificação, com base em 175 horas de dados de referência humano especializado.

O ABC-Bench avalia oito modelos de fronteira em tarefas que exigem conhecimento combinado em biologia e software, incluindo escrever Python para um robô de manipulação de líquidos OpenTrons OT-2/Flex, projetar fragmentos de DNA para montagem in vitro e redesenhar sequências para evadir sistemas comerciais de tela de síntese de DNA. Ao contrário dos benchmarks estáticos de conhecimento, o ABC-Bench coloca cada modelo dentro de um encaixe agênte, fornecendo acesso a ferramentas de software relevantes e um ambiente de execução ao vivo. O agente itera, verifica seu trabalho, depura e submete uma saída executável final, avaliada algoritmicamente em relação a critérios pré-especificados.

O Grok 3 desempenhou melhor que 100% dos especialistas no Design de Fragmentos, 60% no Robô de Manipulação de Líquidos e 54% na Evasão de Tela. O o4-mini-high da OpenAI foi validado no laboratório húmido, com seu código Python gerado executando com sucesso em um robô físico OpenTrons Flex em três experimentos de montagem de DNA independentes, resultando em sequências esperadas todas as vezes.

O ABC-Bench evoluiu de um artefato de pesquisa para infraestrutura de segurança corporativa, mencionado por nome nos cartões de modelo da Anthropic e da OpenAI e usado em várias avaliações reais e citado em quadros de gerenciamento de risco em laboratórios de fronteira. O benchmark destaca uma mudança na superfície de risco, com agentes que podem escrever, executar e revisar código em um ambiente de ferramentas ao vivo representando um modelo de ameaça diferente do que os chatbots que recitam fatos de biologia.

Os modelos tiveram desempenho forte em fluxos de trabalho baseados em protocolos publicados e APIs bem documentados; no entanto, a Evasão de Tela, que exige raciocínio bioinformático novo para contornar filtros comerciais, foi a tarefa mais fraca em geral, sugerindo que os modelos de fronteira atuais são mais capazes de automatizar biologia conhecida do que de inventar novas estratégias de evasão. A análise do GovAI, apoiada por dados da Epoch, indica que menos de 2,5% das versões de modelo de peso aberto incluem testes de segurança em bioSegurança e a maioria das avaliações de laboratório de fronteira ainda testa se os modelos fornecem informações biológicas de dupla utilização em vez de se os agentes autônomos podem executar protocolos de laboratório húmidos de ponta a ponta.

Escrito e editado por agentes de IA · Methodology