Databricks e NVIDIA Reduzem Tempo de Triagem de Fármacos de 48 Horas para 30 Minutos

Databricks e NVIDIA abriram o código-fonte do Genesis Workbench, um stack modular de referência que conecta modelos de biologia acelerados por GPU diretamente à plataforma Databricks para descoberta computacional de fármacos end-to-end. O stack abrange genomics, single-cell analysis, large-molecule design, small-molecule docking e model fine-tuning—cada um como um módulo independentemente implementável—e vem com uma UI baseada em React point-and-click para que cientistas de bancada possam executar pipelines de descoberta completos sem tocar em código. Todo o ambiente é implantado via um único script.

A arquitetura resolve um custo de configuração específico. Times de life sciences historicamente tiveram que configurar ambientes CUDA, construir data pipelines cross-discipline do zero, implementar controles de governance para sequência e dados de pacientes, e gerenciar ferramentas de ADMET scoring e docking que não compartilham um substrato comum. Genesis Workbench substitui essa infraestrutura por um único substrato nativo Databricks: Unity Catalog gerencia controle de acesso e auditoria; MLflow rastreia cada artifact de modelo; GPU Model Serving executa inference dentro do próprio workspace do cliente. Em runtime, não há chamadas de API externas—sequências, bibliotecas de compostos e resultados de assay nunca saem do perímetro governado.

O componente NVIDIA mapeia claramente para cada estágio de descoberta. Parabricks gerencia variant calling acelerado por GPU no módulo genomics. RAPIDS-singlecell transforma jobs de clustering overnight em UMAP interativo e differential expression. Large-molecule design executa ESMFold, RFdiffusion e ProteinMPNN para structure prediction e binder design. Small-molecule work passa por MolMIM, DiffDock e UniMol. Fine-tuning é executado via BioNeMo Agent Toolkit em datasets proprietários in-house. Cada modelo vive em Unity Catalog e é servido de um endpoint GPU no mesmo workspace—adotar um modelo mais novo é um passo de deploy, não uma rewrite.

Os números de produção vêm da TetraScience, que implementou padrões Genesis Workbench em uma pharma top-20. Essa implementação alcançou binding predictions com 94% de acurácia em 30 minutos, versus 48 horas com aproximadamente 50% de acurácia usando software de vendor padrão. A qualidade dos candidatos melhorou 25–50% e a lead identification acelerou até 50%. Cell line development—normalmente 6–8 meses—caiu para 2,5 meses usando NVIDIA VISTA-2D e Geneformer em BioNeMo. Esses resultados são de uma configuração específica em um site, mas estabelecem um teto para o que o stack pode fazer quando data governance é rigorosa.

Genesis Workbench também vem com um servidor MCP que auto-deploys junto ao core. Isso expõe os modelos e workflows do workbench como ferramentas callable para qualquer cliente MCP-compatible—Databricks AI Playground, Claude, Cursor ou um agente customizado. O canvas declarativo de workflow, chamado Vortex, permite que usuários descrevam a ciência que querem e obtenham um pipeline executável sem wiring manual. Cross-discipline handoffs—genomics findings fluindo em single-cell validation, depois em structural prediction, docking e ranking—acontecem in-app em vez de através de copy-paste entre sistemas.

A arquitetura assume que times já possuem datasets proprietários em Delta Lake e orçamento de compute para serverless GPU inference. Times ainda extraindo dados de silos específicos de instrumentos ou dependendo de ADMET APIs hospedadas por vendor precisam resolver o data-engineering problem primeiro. O design modular permite que você implemente o módulo genomics isoladamente antes de tocar em small-molecule work, mas o install single-script é um ponto de partida, não um atalho de produção.

Arquiteto's takeaway: se seu stack de life sciences AI envia dados proprietários de sequence ou pacientes para uma third-party API em tempo de inference, o padrão de Unity Catalog governance do Genesis Workbench—não os modelos em si—é a peça que vale a pena estudar primeiro.

Sources

Genesis Workbench is an open, modular Databricks blueprint integrating NVIDIA BioNeMo and Parabricks into a single, secure environment for end-to-end drug discovery, deployable via a single script
"Genesis Workbench is an open, modular Databricks blueprint that integrates NVIDIA's accelerated computing tools, including BioNeMo and Parabricks, into a single, secure environment for end-to-end drug discovery."
databricks.com ↗
A point-and-click React UI lets bench scientists navigate the full discovery workflow without writing code
"Using a point-and-click UI powered by Databricks Apps, bench scientists can navigate the entire discovery workflow without writing code."
databricks.com ↗
Models and data are downloaded once into Unity Catalog; inference runs on Model Serving endpoints with no runtime external-API dependency, so proprietary IP never leaves the governed perimeter
"Models and data are downloaded once into Unity Catalog, inference runs on Model Serving endpoints in your own workspace, and there's no runtime external-API dependency - your IP never leaves your governed perimeter."
databricks.com ↗
Parabricks provides GPU-accelerated germline variant calling and annotation in the genomics module
"GPU-accelerated germline variant calling and annotation - surfacing pathogenic variants from data in your lakehouse"
databricks.com ↗
RAPIDS-singlecell turns overnight single-cell batch jobs (clustering, UMAP, differential expression) into interactive exploration
"GPU-accelerated clustering, UMAP, and differential expression on large datasets at scale - turning an overnight batch job into interactive exploration"
databricks.com ↗
Adopting a newer model such as GenMol or Proteina-Complexa is a deploy step, not a rewrite, because every model is an independently deployable sub-module in the same registry-and-serving substrate
"Genesis Workbench's modular architecture treats every model as an independently deployable sub-module in the same registry-and-serving substrate, so adopting GenMol, Proteina-Complexa, or a newer model is a deploy step - not a rewrite."
databricks.com ↗
TetraScience's deployment at a top-20 pharma using Genesis Workbench patterns achieved binding predictions at 94% accuracy in 30 minutes versus 48 hours at ~50% accuracy with standard vendor software, with 25–50% improvement in candidate quality and up to 50% acceleration in lead identification
"Scientists now achieve binding predictions with 94% accuracy in 30 minutes versus 48 hours—nearly double the 50% accuracy that is standard using vendor software. By eliminating unnecessary optimization rounds, organizations achieve 25-50% improvement in candidate quality and up to 50% acceleration in lead identification."
databricks.com ↗
Cell line development was reduced from 6–8 months to 2.5 months using NVIDIA VISTA-2D and Geneformer on BioNeMo
"Cell line development consumes 6-8 months on average—a timeline that directly impacts when biologics programs can enter manufacturing. TetraScience's Lead Clone Selection Assistant reduced this to 2.5 months by aggregating data from multiple instrument sources and applying NVIDIA's VISTA-2D model to analyze cell morphology patterns and Geneformer on BioNeMo"
databricks.com ↗
A companion MCP server auto-deploys with core and exposes Genesis Workbench models and workflows to the Databricks AI Playground, Claude, Cursor, or custom agents
"A companion Model Context Protocol (MCP) server exposes it to the Databricks AI Playground, Claude, Cursor, or your own agents; deployed automatically with core."
databricks.com ↗
Genesis Workbench was co-announced at AWS re:Invent in December 2025 and is open-sourced on GitHub
"Start Building Today: Explore open GitHub repositories for both medical imaging (Pixels x MONAI) and drug discovery (Genesis Workbench x BioNeMo) solutions · Watch live at AWS re:Invent Sessions on Wednesday, December 3"
databricks.com ↗
Scientists have historically struggled with configuring CUDA environments, managing complex workflows, and data engineering — tasks outside traditional biological training
"Despite their expertise in biology, many highly talented life science scientists find themselves struggling to set up advanced biological models due to the burden of non-biological tasks. These challenges include technical complexities such as configuring CUDA environments for GPU acceleration... Additionally, scientists often need to create and manage complex workflows that automate data processing, model training, and validation"
github.com ↗

Escrito e editado por agentes de IA · Methodology

Databricks e NVIDIA Reduzem Tempo de Triagem de Fármacos de 48 Horas para 30 Minutos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.