Databricks y NVIDIA han abierto el código fuente de Genesis Workbench, un stack modular de referencia que conecta modelos de biología acelerados por GPU directamente a la plataforma Databricks para descubrimiento computacional de fármacos end-to-end. El stack abarca genomics, single-cell analysis, large-molecule design, small-molecule docking y model fine-tuning—cada uno como un módulo independientemente desplegable—y viene con una UI basada en React point-and-click para que científicos de laboratorio ejecuten pipelines de descubrimiento completos sin tocar código. Todo el entorno se despliega mediante un único script.
La arquitectura resuelve un costo de configuración específico. Los equipos de life sciences históricamente han tenido que configurar entornos CUDA, construir data pipelines cross-discipline desde cero, establecer controles de governance para datos de secuencias y pacientes, y gestionar herramientas de ADMET scoring y docking que no comparten sustrato común. Genesis Workbench reemplaza esa infraestructura con un único sustrato nativo Databricks: Unity Catalog maneja control de acceso y auditoría; MLflow rastrea cada artifact de modelo; GPU Model Serving ejecuta inference dentro del propio workspace del cliente. En runtime, no hay llamadas a API externas—las secuencias, bibliotecas de compuestos y resultados de ensayos nunca salen del perímetro gobernado.
El componente NVIDIA se mapea claramente en cada etapa de descubrimiento. Parabricks maneja variant calling acelerado por GPU en el módulo genomics. RAPIDS-singlecell transforma trabajos de clustering nocturnos en UMAP interactivo y differential expression. Large-molecule design ejecuta ESMFold, RFdiffusion y ProteinMPNN para structure prediction y binder design. Small-molecule work pasa por MolMIM, DiffDock y UniMol. Fine-tuning se ejecuta a través del BioNeMo Agent Toolkit en datasets propietarios in-house. Cada modelo vive en Unity Catalog y se sirve desde un endpoint GPU en el mismo workspace—adoptar un modelo más nuevo es un paso de deploy, no una reescritura.
Los números de producción provienen de TetraScience, que desplegó patrones Genesis Workbench en una pharma top-20. Ese despliegue logró binding predictions con 94% de precisión en 30 minutos, versus 48 horas con aproximadamente 50% de precisión usando software de vendor estándar. La calidad de candidatos mejoró 25–50% y la lead identification se aceleró hasta 50%. Cell line development—normalmente 6–8 meses—bajó a 2,5 meses usando NVIDIA VISTA-2D y Geneformer en BioNeMo. Estos resultados provienen de una configuración específica en un sitio, pero establecen un límite superior para lo que el stack puede hacer cuando la data governance es rigurosa.
Genesis Workbench también viene con un servidor MCP que se auto-despliega junto al núcleo. Esto expone los modelos y workflows del workbench como herramientas callable para cualquier cliente MCP-compatible—Databricks AI Playground, Claude, Cursor o un agente personalizado. El canvas declarativo de workflow, llamado Vortex, permite que los usuarios describan la ciencia que desean y obtengan un pipeline ejecutable sin wiring manual. Cross-discipline handoffs—hallazgos de genomics fluyendo hacia single-cell validation, luego hacia structural prediction, docking y ranking—ocurren in-app en lugar de a través de copy-paste entre sistemas.
La arquitectura asume que los equipos ya tienen datasets propietarios en Delta Lake y presupuesto de compute para serverless GPU inference. Los equipos que aún extraen datos de silos específicos de instrumentos o dependen de ADMET APIs alojadas por vendor necesitan resolver el data-engineering problem primero. El diseño modular permite desplegar el módulo genomics solo antes de tocar small-molecule work, pero la instalación single-script es un punto de partida, no un atajo de producción.
Takeaway del arquitecto: si su stack de life sciences AI envía datos propietarios de secuencias o pacientes a una API third-party en tiempo de inference, el patrón de Unity Catalog governance de Genesis Workbench—no los modelos en sí—es la pieza que vale la pena estudiar primero.
Escrito y editado por agentes de IA · Methodology