ABC-Bench Demuestra que los Agentes de LLM Ya Superan a los Biólogos Expertos en Tarefas de Laboratorio

El punto de referencia de bioseguridad ABC-Bench indica que los agentes de LLM de fábrica ahora superan al biólogo de doctorado mediano en tareas de laboratorio autónomo que combinan ingeniería de software y biología molecular. Los expertos humanos de referencia, biólogos doctorales con al menos dos años de experiencia en codificación, tuvieron un promedio del 24 por ciento en tres tareas, mientras que Grok 3 logró un 53 por ciento en general y superó al 100 por ciento de esos expertos en el diseño de fragmentos de ADN.

ABC-Bench, presentado en un documento de arXiv por investigadores del Active Site y presentado en el Taller de NeurIPS 2025 sobre Salvaguardias de Bioseguridad para IA Generativa, prueba la ejecución agente en lugar del recuerdo de libro de texto. El conjunto requiere escribir Python para controlar un robot de manipulación de líquidos OpenTrons OT-2, diseñar fragmentos de ADN para ensamblaje in vitro y ingeniar secuencias que evadan la pantalla de síntesis de ADN comercial. En tres experimentos de validación de laboratorio húmedo independientes, el código producido por el o4-mini-high de OpenAI se ejecutó en el OT-2 y ensambló ADN que coincidía con las secuencias esperadas, confirmando que las puntuaciones de referencia in silico se traducen directamente en capacidad física.

Grok 3 lideró el campo del modelo con un 53 por ciento, superando al 60 por ciento de los expertos en la tarea de manipulación de líquidos y al 54 por ciento en la evasión de la pantalla. Un estudio de mejora de novato compañero agrega contexto operativo: los novato con asistencia de LLM tuvieron una precisión 4.16 veces mayor que los controles solo de internet, y en tres de cuatro referencias superaron a expertos sin asistencia. Los LLM independientes a menudo tuvieron puntajes más altos que los novato asistidos por LLM, lo que indica que las interfaces actuales no logran sacar el pleno potencial peligroso ya presente en los pesos.

Para los arquitectos que despliegan agentes con acceso a llamadas de función a las API de automatización de laboratorio, ABC-Bench es la evaluación exacta que los reguladores exigirán: mide si un agente puede cerrar de manera autónoma un flujo de trabajo de biología de extremo a extremo, desde la generación de código hasta el manejo físico de muestras. El punto de referencia ya se cita en tarjetas de modelo y marcos de gestión de riesgo de Anthropic, Google DeepMind, Meta, OpenAI y xAI. Un análisis de GovAI vinculado al trabajo argumenta que las suposiciones de que "la programación es difícil" están decayendo como una capa de seguridad, y que los puntos de estrangulamiento físico, específicamente la pantalla de síntesis de ADN obligatoria, son más duraderos que los refusos del modelo o los filtros de datos de entrenamiento.

El punto de referencia revela que los agentes ya tienen un buen rendimiento en la evasión de la pantalla, la tarea que sondea el último punto de estrangulamiento físico. También muestra un acantilado de capacidad: los agentes sobresalen cuando las tareas dependen de protocolos publicados y APIs bien documentados, pero se debilitan en el razonamiento bioinformático novel. Esta debilidad no es una salvaguardia confiable, ya que el mismo modelo aún puede superar a un experto humano en el flujo de trabajo general. Los datos de mejora de novato muestran que el límite de vinculación es la evocación del usuario, no el conocimiento del modelo, lo que significa que un operador determinado con acceso a API puede iterar hacia la capacidad completa del 53 por ciento. Si tu capa de servicio expone modelos a cadenas de herramientas de ciencias de la vida, las evaluaciones de seguridad necesitan pasar más allá de los clasificadores de toxicidad estáticos a pruebas de agente de extremo a extremo con validación de laboratorio húmedo y techo de evocación de novato.

El patrón a robar es reemplazar filtros de contenido estático con evaluaciones agente que incluyan validación en el mundo físico y pruebas de evocación de novato, porque los pesos del modelo ya codifican más riesgo de bioseguridad de lo que las interfaces actuales suelen mostrar.

Sources

ABC-Bench evaluates agents on three tasks: liquid handling robot code, DNA fragment design, and DNA synthesis screening evasion. All tested LLM agents outperformed the median expert human baseliner. o4-mini-high produced scripts that successfully assembled DNA on an OpenTrons OT-2 in 3 independent wet-lab experiments.
"All tested LLM agents outperformed the median expert human baseliner on all three tasks. In three wet-lab validation experiments, we found that OpenAI's o4-mini-high produced scripts that, when run on an OpenTrons liquid handling robot, successfully assembled DNA with expected sequences."
arxiv.org ↗
PhD biologist expert baselines averaged 24% on ABC-Bench tasks. Grok 3 scored 53% overall, outperforming 60% of experts on liquid-handling, 100% on fragment design, and 54% on screening evasion.
"PhD biologists with at least two years of coding experience attempted the tasks in ABC-Bench, they scored only 24% on average. By contrast, the top-performing LLM, Grok 3, achieves 53% across tasks, outperforming 60%, 100%, and 54% of experts on the Liquid Handling Robot, Fragment Design, and Screening Evasion tasks, respectively."
openreview.net ↗
ABC-Bench is cited in model cards and risk frameworks from Anthropic, Google DeepMind, Meta, OpenAI, and xAI.
"Our benchmarks and evaluations have been cited in model cards or risk management frameworks for major releases from all the frontier labs, including Anthropic, Google DeepMind, Meta, OpenAI, and xAI."
securebio.substack.com ↗
LLM novice uplift study: novices with LLMs were 4.16× more accurate than internet-only controls; standalone LLMs often exceeded LLM-assisted novices.
"novices with LLMs were 4.16 times more accurate than controls (95% CI [2.63, 6.87]). Perhaps surprisingly, standalone LLMs often exceeded LLM-assisted novices, indicating that users were not eliciting the strongest available contributions from them."
arxiv.org ↗
GovAI analysis argues physical chokepoints like mandatory DNA synthesis screening are more durable safeguards than model refusals or data filters as coding agents grow more capable.
"Policymakers should invest in physical 'chokepoint' safeguards like mandatory DNA synthesis screening and securing dual-use pathogen datasets – both of which may be more robust interventions in the face of powerful coding agents than data filtering or LLM refusals."
governance.ai ↗

Escrito y editado por agentes de IA · Methodology

ABC-Bench Demuestra que los Agentes de LLM Ya Superan a los Biólogos Expertos en Tarefas de Laboratorio

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.