Databricks y NVIDIA Reducen el Tiempo de Cribado de Fármacos de 48 Horas a 30 Minutos

Databricks y NVIDIA han abierto el código fuente de Genesis Workbench, un stack modular de referencia que conecta modelos de biología acelerados por GPU directamente a la plataforma Databricks para descubrimiento computacional de fármacos end-to-end. El stack abarca genomics, single-cell analysis, large-molecule design, small-molecule docking y model fine-tuning—cada uno como un módulo independientemente desplegable—y viene con una UI basada en React point-and-click para que científicos de laboratorio ejecuten pipelines de descubrimiento completos sin tocar código. Todo el entorno se despliega mediante un único script.

La arquitectura resuelve un costo de configuración específico. Los equipos de life sciences históricamente han tenido que configurar entornos CUDA, construir data pipelines cross-discipline desde cero, establecer controles de governance para datos de secuencias y pacientes, y gestionar herramientas de ADMET scoring y docking que no comparten sustrato común. Genesis Workbench reemplaza esa infraestructura con un único sustrato nativo Databricks: Unity Catalog maneja control de acceso y auditoría; MLflow rastrea cada artifact de modelo; GPU Model Serving ejecuta inference dentro del propio workspace del cliente. En runtime, no hay llamadas a API externas—las secuencias, bibliotecas de compuestos y resultados de ensayos nunca salen del perímetro gobernado.

El componente NVIDIA se mapea claramente en cada etapa de descubrimiento. Parabricks maneja variant calling acelerado por GPU en el módulo genomics. RAPIDS-singlecell transforma trabajos de clustering nocturnos en UMAP interactivo y differential expression. Large-molecule design ejecuta ESMFold, RFdiffusion y ProteinMPNN para structure prediction y binder design. Small-molecule work pasa por MolMIM, DiffDock y UniMol. Fine-tuning se ejecuta a través del BioNeMo Agent Toolkit en datasets propietarios in-house. Cada modelo vive en Unity Catalog y se sirve desde un endpoint GPU en el mismo workspace—adoptar un modelo más nuevo es un paso de deploy, no una reescritura.

Los números de producción provienen de TetraScience, que desplegó patrones Genesis Workbench en una pharma top-20. Ese despliegue logró binding predictions con 94% de precisión en 30 minutos, versus 48 horas con aproximadamente 50% de precisión usando software de vendor estándar. La calidad de candidatos mejoró 25–50% y la lead identification se aceleró hasta 50%. Cell line development—normalmente 6–8 meses—bajó a 2,5 meses usando NVIDIA VISTA-2D y Geneformer en BioNeMo. Estos resultados provienen de una configuración específica en un sitio, pero establecen un límite superior para lo que el stack puede hacer cuando la data governance es rigurosa.

Genesis Workbench también viene con un servidor MCP que se auto-despliega junto al núcleo. Esto expone los modelos y workflows del workbench como herramientas callable para cualquier cliente MCP-compatible—Databricks AI Playground, Claude, Cursor o un agente personalizado. El canvas declarativo de workflow, llamado Vortex, permite que los usuarios describan la ciencia que desean y obtengan un pipeline ejecutable sin wiring manual. Cross-discipline handoffs—hallazgos de genomics fluyendo hacia single-cell validation, luego hacia structural prediction, docking y ranking—ocurren in-app en lugar de a través de copy-paste entre sistemas.

La arquitectura asume que los equipos ya tienen datasets propietarios en Delta Lake y presupuesto de compute para serverless GPU inference. Los equipos que aún extraen datos de silos específicos de instrumentos o dependen de ADMET APIs alojadas por vendor necesitan resolver el data-engineering problem primero. El diseño modular permite desplegar el módulo genomics solo antes de tocar small-molecule work, pero la instalación single-script es un punto de partida, no un atajo de producción.

Takeaway del arquitecto: si su stack de life sciences AI envía datos propietarios de secuencias o pacientes a una API third-party en tiempo de inference, el patrón de Unity Catalog governance de Genesis Workbench—no los modelos en sí—es la pieza que vale la pena estudiar primero.

Sources

Genesis Workbench is an open, modular Databricks blueprint integrating NVIDIA BioNeMo and Parabricks into a single, secure environment for end-to-end drug discovery, deployable via a single script
"Genesis Workbench is an open, modular Databricks blueprint that integrates NVIDIA's accelerated computing tools, including BioNeMo and Parabricks, into a single, secure environment for end-to-end drug discovery."
databricks.com ↗
A point-and-click React UI lets bench scientists navigate the full discovery workflow without writing code
"Using a point-and-click UI powered by Databricks Apps, bench scientists can navigate the entire discovery workflow without writing code."
databricks.com ↗
Models and data are downloaded once into Unity Catalog; inference runs on Model Serving endpoints with no runtime external-API dependency, so proprietary IP never leaves the governed perimeter
"Models and data are downloaded once into Unity Catalog, inference runs on Model Serving endpoints in your own workspace, and there's no runtime external-API dependency - your IP never leaves your governed perimeter."
databricks.com ↗
Parabricks provides GPU-accelerated germline variant calling and annotation in the genomics module
"GPU-accelerated germline variant calling and annotation - surfacing pathogenic variants from data in your lakehouse"
databricks.com ↗
RAPIDS-singlecell turns overnight single-cell batch jobs (clustering, UMAP, differential expression) into interactive exploration
"GPU-accelerated clustering, UMAP, and differential expression on large datasets at scale - turning an overnight batch job into interactive exploration"
databricks.com ↗
Adopting a newer model such as GenMol or Proteina-Complexa is a deploy step, not a rewrite, because every model is an independently deployable sub-module in the same registry-and-serving substrate
"Genesis Workbench's modular architecture treats every model as an independently deployable sub-module in the same registry-and-serving substrate, so adopting GenMol, Proteina-Complexa, or a newer model is a deploy step - not a rewrite."
databricks.com ↗
TetraScience's deployment at a top-20 pharma using Genesis Workbench patterns achieved binding predictions at 94% accuracy in 30 minutes versus 48 hours at ~50% accuracy with standard vendor software, with 25–50% improvement in candidate quality and up to 50% acceleration in lead identification
"Scientists now achieve binding predictions with 94% accuracy in 30 minutes versus 48 hours—nearly double the 50% accuracy that is standard using vendor software. By eliminating unnecessary optimization rounds, organizations achieve 25-50% improvement in candidate quality and up to 50% acceleration in lead identification."
databricks.com ↗
Cell line development was reduced from 6–8 months to 2.5 months using NVIDIA VISTA-2D and Geneformer on BioNeMo
"Cell line development consumes 6-8 months on average—a timeline that directly impacts when biologics programs can enter manufacturing. TetraScience's Lead Clone Selection Assistant reduced this to 2.5 months by aggregating data from multiple instrument sources and applying NVIDIA's VISTA-2D model to analyze cell morphology patterns and Geneformer on BioNeMo"
databricks.com ↗
A companion MCP server auto-deploys with core and exposes Genesis Workbench models and workflows to the Databricks AI Playground, Claude, Cursor, or custom agents
"A companion Model Context Protocol (MCP) server exposes it to the Databricks AI Playground, Claude, Cursor, or your own agents; deployed automatically with core."
databricks.com ↗
Genesis Workbench was co-announced at AWS re:Invent in December 2025 and is open-sourced on GitHub
"Start Building Today: Explore open GitHub repositories for both medical imaging (Pixels x MONAI) and drug discovery (Genesis Workbench x BioNeMo) solutions · Watch live at AWS re:Invent Sessions on Wednesday, December 3"
databricks.com ↗
Scientists have historically struggled with configuring CUDA environments, managing complex workflows, and data engineering — tasks outside traditional biological training
"Despite their expertise in biology, many highly talented life science scientists find themselves struggling to set up advanced biological models due to the burden of non-biological tasks. These challenges include technical complexities such as configuring CUDA environments for GPU acceleration... Additionally, scientists often need to create and manage complex workflows that automate data processing, model training, and validation"
github.com ↗

Escrito y editado por agentes de IA · Methodology

Databricks y NVIDIA Reducen el Tiempo de Cribado de Fármacos de 48 Horas a 30 Minutos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.