Grok 3 Supera Biologistas Credenciados em Tarefas de Laboratório Automático de DNA

O ABC-Bench da SecureBio demonstrou que agentes de LLM de fronteira, como o Grok 3, agora superam os biólogos credenciados em tarefas de laboratório autônomo com implicações em bioSegurança. O Grok 3 alcançou uma pontuação de 53% em três fluxos de trabalho de biologia dupla-utilização, mais do que dobrando a média de 24% de biólogos PhD com pelo menos dois anos de experiência em codificação, com base em 175 horas de dados de referência humano especializado.

O ABC-Bench avalia oito modelos de fronteira em tarefas que exigem conhecimento combinado em biologia e software, incluindo escrever Python para um robô de manipulação de líquidos OpenTrons OT-2/Flex, projetar fragmentos de DNA para montagem in vitro e redesenhar sequências para evadir sistemas comerciais de tela de síntese de DNA. Ao contrário dos benchmarks estáticos de conhecimento, o ABC-Bench coloca cada modelo dentro de um encaixe agênte, fornecendo acesso a ferramentas de software relevantes e um ambiente de execução ao vivo. O agente itera, verifica seu trabalho, depura e submete uma saída executável final, avaliada algoritmicamente em relação a critérios pré-especificados.

O Grok 3 desempenhou melhor que 100% dos especialistas no Design de Fragmentos, 60% no Robô de Manipulação de Líquidos e 54% na Evasão de Tela. O o4-mini-high da OpenAI foi validado no laboratório húmido, com seu código Python gerado executando com sucesso em um robô físico OpenTrons Flex em três experimentos de montagem de DNA independentes, resultando em sequências esperadas todas as vezes.

O ABC-Bench evoluiu de um artefato de pesquisa para infraestrutura de segurança corporativa, mencionado por nome nos cartões de modelo da Anthropic e da OpenAI e usado em várias avaliações reais e citado em quadros de gerenciamento de risco em laboratórios de fronteira. O benchmark destaca uma mudança na superfície de risco, com agentes que podem escrever, executar e revisar código em um ambiente de ferramentas ao vivo representando um modelo de ameaça diferente do que os chatbots que recitam fatos de biologia.

Os modelos tiveram desempenho forte em fluxos de trabalho baseados em protocolos publicados e APIs bem documentados; no entanto, a Evasão de Tela, que exige raciocínio bioinformático novo para contornar filtros comerciais, foi a tarefa mais fraca em geral, sugerindo que os modelos de fronteira atuais são mais capazes de automatizar biologia conhecida do que de inventar novas estratégias de evasão. A análise do GovAI, apoiada por dados da Epoch, indica que menos de 2,5% das versões de modelo de peso aberto incluem testes de segurança em bioSegurança e a maioria das avaliações de laboratório de fronteira ainda testa se os modelos fornecem informações biológicas de dupla utilização em vez de se os agentes autônomos podem executar protocolos de laboratório húmidos de ponta a ponta.

Sources

All tested LLM agents outperformed the median expert human baseliner on all three tasks; PhD biologists with ≥2 years coding experience scored only 24% on average across tasks; 175 hours of expert human baselines collected
"These tasks require a combination of biology and software expertise. All tested LLM agents outperformed the median expert human baseliner on all three tasks."
arxiv.org ↗
Grok 3 scored 53% aggregate across tasks, outperforming 100% of experts on Fragment Design, 60% on Liquid Handling Robot, 54% on Screening Evasion
"the top-performing LLM, Grok 3, achieves 53% across tasks, outperforming 60%, 100%, and 54% of experts on the Liquid Handling Robot, Fragment Design, and Screening Evasion tasks, respectively"
openreview.net ↗
OpenAI's o4-mini-high generated code that ran on a physical OpenTrons Flex robot and successfully assembled DNA with expected sequences in three independent wet-lab experiments
"In three wet-lab validation experiments, we found that OpenAI's o4-mini-high produced scripts that, when run on an OpenTrons liquid handling robot, successfully assembled DNA with expected sequences."
arxiv.org ↗
ABC-Bench tasks are referenced by name in model cards from Anthropic and OpenAI; benchmark used in multiple real assessments and cited in risk management frameworks across frontier labs
"ABC-Bench shows that AI agents can increasingly undertake biosecurity-relevant tasks across both in-silico design and wet-lab experiments... Several of these efforts were presented at NeurIPS and used in multiple real assessments."
securebio.org ↗
Fewer than 2.5% of open-weight model releases include biosecurity safety tests; most frontier labs only evaluate whether models provide dual-use biological information
"developers should conduct biosecurity safety tests before releasing open-weight models, a commitment that over 100 researchers have endorsed but carried out in fewer than 2.5% of model releases"
governance.ai ↗
ABC-Bench evaluates agents on three tasks: liquid handling robot coding, DNA fragment design, and synthesis screening evasion, using an agentic scaffold with live tool access
"ABC-Bench evaluates LLM agents on both benign and dual-use biology tasks: writing code to operate liquid handling robots, designing DNA fragments for in vitro assembly, and evading DNA synthesis screening."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Grok 3 Supera Biologistas Credenciados em Tarefas de Laboratório Automático de DNA

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.