Grok 3 Supera a Biólogos Credenciados en Tareas de Laboratorio ADN Autónomo

El ABC-Bench de SecureBio ha demostrado que los agentes de LLM fronterizos, como Grok 3, ahora superan a biólogos credenciados en tareas de laboratorio autónomo con implicaciones bioseguridad. Grok 3 logró un puntaje del 53% en tres flujos de trabajo de biología doble uso, más que duplicando el promedio del 24% de biólogos PhD con al menos dos años de experiencia en codificación, basado en 175 horas de datos de línea base humano experto.

ABC-Bench evalúa a ocho modelos fronterizos en tareas que requieren una combinación de conocimientos biológicos y de software, incluyendo escribir Python para un robot de manipulación de líquidos OpenTrons OT-2/Flex, diseñar fragmentos de DNA para ensamblaje in vitro y rediseñar secuencias para evadir sistemas de pantallaje de síntesis de DNA comercial. A diferencia de los marcos de referencia de conocimiento estático, ABC-Bench coloca a cada modelo dentro de un andamiaje agente, proporcionando acceso a herramientas de software relevantes y un entorno de ejecución en vivo. El agente itera, verifica su trabajo, depura y envía una salida ejecutable final, calificada algorítmicamente según criterios preespecificados.

Grok 3 superó al 100% de los expertos en Diseño de Fragmentos, al 60% en Robot de Manipulación de Líquidos y al 54% en Evasión de Detección. El o4-mini-high de OpenAI fue validado en el laboratorio húmedo, con su código Python generado ejecutándose correctamente en un robot físico OpenTrons Flex en tres experimentos de ensamblaje de DNA independientes, obteniendo secuencias esperadas cada vez.

ABC-Bench ha evolucionado desde un artefacto de investigación a infraestructura de seguridad corporativa, mencionado por nombre en tarjetas de modelo de Anthropic y OpenAI, y utilizado en múltimas evaluaciones reales y citado en marcos de gestión de riesgo en laboratorios fronterizos. El marco de referencia resalta un cambio en la superficie de riesgo, con agentes que pueden escribir, ejecutar y revisar código en un entorno de herramientas en vivo representando un modelo de amenaza diferente al de los chatbots que recitan hechos de biología.

Los modelos tuvieron un desempeño sólido en flujos de trabajo basados en protocolos publicados y APIs bien documentados; sin embargo, la Evasión de Detección, que exige un razonamiento bioinformático novel para eludir filtros comerciales, fue la tarea más débil en general, sugiriendo que los modelos fronterizos actuales son más capaces de automatizar biología conocida que de inventar estrategias de evasión novel. El análisis de GovAI, apoyado por datos de Epoch, indica que menos del 2.5% de las versiones de modelos de peso abierto incluyen pruebas de seguridad bioseguridad, y la mayoría de las evaluaciones de laboratorio fronterizo todavía prueban si los modelos proporcionan información biológica de doble uso en lugar de si agentes autónomos pueden ejecutar protocolos de laboratorio húmedo de principio a fin.

Sources

All tested LLM agents outperformed the median expert human baseliner on all three tasks; PhD biologists with ≥2 years coding experience scored only 24% on average across tasks; 175 hours of expert human baselines collected
"These tasks require a combination of biology and software expertise. All tested LLM agents outperformed the median expert human baseliner on all three tasks."
arxiv.org ↗
Grok 3 scored 53% aggregate across tasks, outperforming 100% of experts on Fragment Design, 60% on Liquid Handling Robot, 54% on Screening Evasion
"the top-performing LLM, Grok 3, achieves 53% across tasks, outperforming 60%, 100%, and 54% of experts on the Liquid Handling Robot, Fragment Design, and Screening Evasion tasks, respectively"
openreview.net ↗
OpenAI's o4-mini-high generated code that ran on a physical OpenTrons Flex robot and successfully assembled DNA with expected sequences in three independent wet-lab experiments
"In three wet-lab validation experiments, we found that OpenAI's o4-mini-high produced scripts that, when run on an OpenTrons liquid handling robot, successfully assembled DNA with expected sequences."
arxiv.org ↗
ABC-Bench tasks are referenced by name in model cards from Anthropic and OpenAI; benchmark used in multiple real assessments and cited in risk management frameworks across frontier labs
"ABC-Bench shows that AI agents can increasingly undertake biosecurity-relevant tasks across both in-silico design and wet-lab experiments... Several of these efforts were presented at NeurIPS and used in multiple real assessments."
securebio.org ↗
Fewer than 2.5% of open-weight model releases include biosecurity safety tests; most frontier labs only evaluate whether models provide dual-use biological information
"developers should conduct biosecurity safety tests before releasing open-weight models, a commitment that over 100 researchers have endorsed but carried out in fewer than 2.5% of model releases"
governance.ai ↗
ABC-Bench evaluates agents on three tasks: liquid handling robot coding, DNA fragment design, and synthesis screening evasion, using an agentic scaffold with live tool access
"ABC-Bench evaluates LLM agents on both benign and dual-use biology tasks: writing code to operate liquid handling robots, designing DNA fragments for in vitro assembly, and evading DNA synthesis screening."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Grok 3 Supera a Biólogos Credenciados en Tareas de Laboratorio ADN Autónomo

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.