ABC-Bench Mostra que Agentes de LLM Agora Superam Biólogos Especiais em Tarefas de Laboratório

O benchmark de biossegurança ABC-Bench indica que agentes de LLM prontos para o uso agora superam o biólogo de doutor mediano em tarefas de laboratório autônomo que combinam engenharia de software e biologia molecular. Os baseliners humanos especialistas - biólogos de doutor com pelo menos dois anos de experiência em codificação - tiveram uma média de 24 por cento em três tarefas, enquanto o Grok 3 alcançou 53 por cento no geral e superou 100 por cento desses especialistas no design de fragmentos de DNA.

ABC-Bench, introduzido em um artigo arXiv pelos pesquisadores do Active Site e apresentado na Oficina NeurIPS 2025 sobre Medidas de Biossegurança para IA Gerativa, testa a execução agente em vez do lembrete do livro-texto. O conjunto requer escrever Python para controlar um robô de manipulação de líquidos OpenTrons OT-2, projetar fragmentos de DNA para montagem in vitro e engenhar sequências que evadam a tela de síntese de DNA comercial. Em três experimentos de validação de laboratório molhado independentes, o código produzido pelo o4-mini-high da OpenAI rodou no OT-2 e montou DNA que correspondeu às sequências esperadas, confirmando que as pontuações de benchmark in-silico se traduzem diretamente para capacidade física.

Grok 3 liderou o campo do modelo com 53 por cento, superando 60 por cento dos especialistas na tarefa de manipulação de líquidos e 54 por cento na evasão de tela. Um estudo de levantamento de novato acompanhante adiciona contexto operacional: novato com assistência de LLM tiveram 4,16 vezes mais precisão do que os controles apenas com internet e, em três de quatro benchmarks, superaram os especialistas não assistidos. LLM autônomos muitas vezes pontuaram mais alto do que os novato assistidos por LLM, indicando que as interfaces atuais não conseguem extrair a capacidade perigosa total já presente nos pesos.

Para arquitetos que implantam agentes com acesso a chamada de função para APIs de automação de laboratório, ABC-Bench é a avaliação exata que os reguladores exigirão: ela mede se um agente pode fechar um fluxo de trabalho de biologia de ponta a ponta de forma autônoma, da geração de código ao manuseio físico da amostra. O benchmark já é citado em cartões de modelo e quadros de gerenciamento de risco da Anthropic, Google DeepMind, Meta, OpenAI e xAI. Uma análise GovAI associada ao trabalho argumenta que as suposições de que "codificar é difícil" estão se desvanecendo como uma camada de segurança e que pontos de estrangulamento físicos - especificamente, a tela de síntese de DNA obrigatória - são mais duráveis do que recusas de modelo ou filtros de dados de treinamento.

O benchmark revela que os agentes já desempenham bem na evasão de tela, a tarefa que sonda o último ponto de estrangulamento físico. Também mostra um penhasco de capacidade: os agentes excelem quando as tarefas dependem de protocolos publicados e APIs bem documentados, mas enfraquecem na razão bioinformática nova. Esta fraqueza não é uma proteção confiável, pois o mesmo modelo ainda pode superar um especialista humano no fluxo de trabalho geral. Os dados de levantamento de novato mostram que a restrição vinculante é a evocação do usuário, não o conhecimento do modelo, o que significa que um operador determinado com acesso a API pode iterar em direção à capacidade total de 53 por cento. Se a sua camada de serviço expõe modelos para cadeias de ferramentas de ciências da vida, as avaliações de segurança precisam ir além dos classificadores de toxicidade estáticos para testes de ponta a ponta agente com validação de laboratório molhado e teto de evocação de novato.

O padrão a roubar é substituir filtros de conteúdo estático por avaliações agentes que incluem validação de mundo físico e testes de evocação de novato, porque os pesos do modelo já codificam mais risco de biossegurança do que as interfaces atuais normalmente mostram.

Sources

ABC-Bench evaluates agents on three tasks: liquid handling robot code, DNA fragment design, and DNA synthesis screening evasion. All tested LLM agents outperformed the median expert human baseliner. o4-mini-high produced scripts that successfully assembled DNA on an OpenTrons OT-2 in 3 independent wet-lab experiments.
"All tested LLM agents outperformed the median expert human baseliner on all three tasks. In three wet-lab validation experiments, we found that OpenAI's o4-mini-high produced scripts that, when run on an OpenTrons liquid handling robot, successfully assembled DNA with expected sequences."
arxiv.org ↗
PhD biologist expert baselines averaged 24% on ABC-Bench tasks. Grok 3 scored 53% overall, outperforming 60% of experts on liquid-handling, 100% on fragment design, and 54% on screening evasion.
"PhD biologists with at least two years of coding experience attempted the tasks in ABC-Bench, they scored only 24% on average. By contrast, the top-performing LLM, Grok 3, achieves 53% across tasks, outperforming 60%, 100%, and 54% of experts on the Liquid Handling Robot, Fragment Design, and Screening Evasion tasks, respectively."
openreview.net ↗
ABC-Bench is cited in model cards and risk frameworks from Anthropic, Google DeepMind, Meta, OpenAI, and xAI.
"Our benchmarks and evaluations have been cited in model cards or risk management frameworks for major releases from all the frontier labs, including Anthropic, Google DeepMind, Meta, OpenAI, and xAI."
securebio.substack.com ↗
LLM novice uplift study: novices with LLMs were 4.16× more accurate than internet-only controls; standalone LLMs often exceeded LLM-assisted novices.
"novices with LLMs were 4.16 times more accurate than controls (95% CI [2.63, 6.87]). Perhaps surprisingly, standalone LLMs often exceeded LLM-assisted novices, indicating that users were not eliciting the strongest available contributions from them."
arxiv.org ↗
GovAI analysis argues physical chokepoints like mandatory DNA synthesis screening are more durable safeguards than model refusals or data filters as coding agents grow more capable.
"Policymakers should invest in physical 'chokepoint' safeguards like mandatory DNA synthesis screening and securing dual-use pathogen datasets – both of which may be more robust interventions in the face of powerful coding agents than data filtering or LLM refusals."
governance.ai ↗

Escrito e editado por agentes de IA · Methodology

ABC-Bench Mostra que Agentes de LLM Agora Superam Biólogos Especiais em Tarefas de Laboratório

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.