O benchmark de biossegurança ABC-Bench indica que agentes de LLM prontos para o uso agora superam o biólogo de doutor mediano em tarefas de laboratório autônomo que combinam engenharia de software e biologia molecular. Os baseliners humanos especialistas - biólogos de doutor com pelo menos dois anos de experiência em codificação - tiveram uma média de 24 por cento em três tarefas, enquanto o Grok 3 alcançou 53 por cento no geral e superou 100 por cento desses especialistas no design de fragmentos de DNA.

ABC-Bench, introduzido em um artigo arXiv pelos pesquisadores do Active Site e apresentado na Oficina NeurIPS 2025 sobre Medidas de Biossegurança para IA Gerativa, testa a execução agente em vez do lembrete do livro-texto. O conjunto requer escrever Python para controlar um robô de manipulação de líquidos OpenTrons OT-2, projetar fragmentos de DNA para montagem in vitro e engenhar sequências que evadam a tela de síntese de DNA comercial. Em três experimentos de validação de laboratório molhado independentes, o código produzido pelo o4-mini-high da OpenAI rodou no OT-2 e montou DNA que correspondeu às sequências esperadas, confirmando que as pontuações de benchmark in-silico se traduzem diretamente para capacidade física.

Grok 3 liderou o campo do modelo com 53 por cento, superando 60 por cento dos especialistas na tarefa de manipulação de líquidos e 54 por cento na evasão de tela. Um estudo de levantamento de novato acompanhante adiciona contexto operacional: novato com assistência de LLM tiveram 4,16 vezes mais precisão do que os controles apenas com internet e, em três de quatro benchmarks, superaram os especialistas não assistidos. LLM autônomos muitas vezes pontuaram mais alto do que os novato assistidos por LLM, indicando que as interfaces atuais não conseguem extrair a capacidade perigosa total já presente nos pesos.

Para arquitetos que implantam agentes com acesso a chamada de função para APIs de automação de laboratório, ABC-Bench é a avaliação exata que os reguladores exigirão: ela mede se um agente pode fechar um fluxo de trabalho de biologia de ponta a ponta de forma autônoma, da geração de código ao manuseio físico da amostra. O benchmark já é citado em cartões de modelo e quadros de gerenciamento de risco da Anthropic, Google DeepMind, Meta, OpenAI e xAI. Uma análise GovAI associada ao trabalho argumenta que as suposições de que "codificar é difícil" estão se desvanecendo como uma camada de segurança e que pontos de estrangulamento físicos - especificamente, a tela de síntese de DNA obrigatória - são mais duráveis do que recusas de modelo ou filtros de dados de treinamento.

O benchmark revela que os agentes já desempenham bem na evasão de tela, a tarefa que sonda o último ponto de estrangulamento físico. Também mostra um penhasco de capacidade: os agentes excelem quando as tarefas dependem de protocolos publicados e APIs bem documentados, mas enfraquecem na razão bioinformática nova. Esta fraqueza não é uma proteção confiável, pois o mesmo modelo ainda pode superar um especialista humano no fluxo de trabalho geral. Os dados de levantamento de novato mostram que a restrição vinculante é a evocação do usuário, não o conhecimento do modelo, o que significa que um operador determinado com acesso a API pode iterar em direção à capacidade total de 53 por cento. Se a sua camada de serviço expõe modelos para cadeias de ferramentas de ciências da vida, as avaliações de segurança precisam ir além dos classificadores de toxicidade estáticos para testes de ponta a ponta agente com validação de laboratório molhado e teto de evocação de novato.

O padrão a roubar é substituir filtros de conteúdo estático por avaliações agentes que incluem validação de mundo físico e testes de evocação de novato, porque os pesos do modelo já codificam mais risco de biossegurança do que as interfaces atuais normalmente mostram.

Escrito e editado por agentes de IA · Methodology