El ABC-Bench de SecureBio ha demostrado que los agentes de LLM fronterizos, como Grok 3, ahora superan a biólogos credenciados en tareas de laboratorio autónomo con implicaciones bioseguridad. Grok 3 logró un puntaje del 53% en tres flujos de trabajo de biología doble uso, más que duplicando el promedio del 24% de biólogos PhD con al menos dos años de experiencia en codificación, basado en 175 horas de datos de línea base humano experto.

ABC-Bench evalúa a ocho modelos fronterizos en tareas que requieren una combinación de conocimientos biológicos y de software, incluyendo escribir Python para un robot de manipulación de líquidos OpenTrons OT-2/Flex, diseñar fragmentos de DNA para ensamblaje in vitro y rediseñar secuencias para evadir sistemas de pantallaje de síntesis de DNA comercial. A diferencia de los marcos de referencia de conocimiento estático, ABC-Bench coloca a cada modelo dentro de un andamiaje agente, proporcionando acceso a herramientas de software relevantes y un entorno de ejecución en vivo. El agente itera, verifica su trabajo, depura y envía una salida ejecutable final, calificada algorítmicamente según criterios preespecificados.

Grok 3 superó al 100% de los expertos en Diseño de Fragmentos, al 60% en Robot de Manipulación de Líquidos y al 54% en Evasión de Detección. El o4-mini-high de OpenAI fue validado en el laboratorio húmedo, con su código Python generado ejecutándose correctamente en un robot físico OpenTrons Flex en tres experimentos de ensamblaje de DNA independientes, obteniendo secuencias esperadas cada vez.

ABC-Bench ha evolucionado desde un artefacto de investigación a infraestructura de seguridad corporativa, mencionado por nombre en tarjetas de modelo de Anthropic y OpenAI, y utilizado en múltimas evaluaciones reales y citado en marcos de gestión de riesgo en laboratorios fronterizos. El marco de referencia resalta un cambio en la superficie de riesgo, con agentes que pueden escribir, ejecutar y revisar código en un entorno de herramientas en vivo representando un modelo de amenaza diferente al de los chatbots que recitan hechos de biología.

Los modelos tuvieron un desempeño sólido en flujos de trabajo basados en protocolos publicados y APIs bien documentados; sin embargo, la Evasión de Detección, que exige un razonamiento bioinformático novel para eludir filtros comerciales, fue la tarea más débil en general, sugiriendo que los modelos fronterizos actuales son más capaces de automatizar biología conocida que de inventar estrategias de evasión novel. El análisis de GovAI, apoyado por datos de Epoch, indica que menos del 2.5% de las versiones de modelos de peso abierto incluyen pruebas de seguridad bioseguridad, y la mayoría de las evaluaciones de laboratorio fronterizo todavía prueban si los modelos proporcionan información biológica de doble uso en lugar de si agentes autónomos pueden ejecutar protocolos de laboratorio húmedo de principio a fin.

Escrito y editado por agentes de IA · Methodology