Databricks e NVIDIA abriram o código-fonte do Genesis Workbench, um stack modular de referência que conecta modelos de biologia acelerados por GPU diretamente à plataforma Databricks para descoberta computacional de fármacos end-to-end. O stack abrange genomics, single-cell analysis, large-molecule design, small-molecule docking e model fine-tuning—cada um como um módulo independentemente implementável—e vem com uma UI baseada em React point-and-click para que cientistas de bancada possam executar pipelines de descoberta completos sem tocar em código. Todo o ambiente é implantado via um único script.

A arquitetura resolve um custo de configuração específico. Times de life sciences historicamente tiveram que configurar ambientes CUDA, construir data pipelines cross-discipline do zero, implementar controles de governance para sequência e dados de pacientes, e gerenciar ferramentas de ADMET scoring e docking que não compartilham um substrato comum. Genesis Workbench substitui essa infraestrutura por um único substrato nativo Databricks: Unity Catalog gerencia controle de acesso e auditoria; MLflow rastreia cada artifact de modelo; GPU Model Serving executa inference dentro do próprio workspace do cliente. Em runtime, não há chamadas de API externas—sequências, bibliotecas de compostos e resultados de assay nunca saem do perímetro governado.

O componente NVIDIA mapeia claramente para cada estágio de descoberta. Parabricks gerencia variant calling acelerado por GPU no módulo genomics. RAPIDS-singlecell transforma jobs de clustering overnight em UMAP interativo e differential expression. Large-molecule design executa ESMFold, RFdiffusion e ProteinMPNN para structure prediction e binder design. Small-molecule work passa por MolMIM, DiffDock e UniMol. Fine-tuning é executado via BioNeMo Agent Toolkit em datasets proprietários in-house. Cada modelo vive em Unity Catalog e é servido de um endpoint GPU no mesmo workspace—adotar um modelo mais novo é um passo de deploy, não uma rewrite.

Os números de produção vêm da TetraScience, que implementou padrões Genesis Workbench em uma pharma top-20. Essa implementação alcançou binding predictions com 94% de acurácia em 30 minutos, versus 48 horas com aproximadamente 50% de acurácia usando software de vendor padrão. A qualidade dos candidatos melhorou 25–50% e a lead identification acelerou até 50%. Cell line development—normalmente 6–8 meses—caiu para 2,5 meses usando NVIDIA VISTA-2D e Geneformer em BioNeMo. Esses resultados são de uma configuração específica em um site, mas estabelecem um teto para o que o stack pode fazer quando data governance é rigorosa.

Genesis Workbench também vem com um servidor MCP que auto-deploys junto ao core. Isso expõe os modelos e workflows do workbench como ferramentas callable para qualquer cliente MCP-compatible—Databricks AI Playground, Claude, Cursor ou um agente customizado. O canvas declarativo de workflow, chamado Vortex, permite que usuários descrevam a ciência que querem e obtenham um pipeline executável sem wiring manual. Cross-discipline handoffs—genomics findings fluindo em single-cell validation, depois em structural prediction, docking e ranking—acontecem in-app em vez de através de copy-paste entre sistemas.

A arquitetura assume que times já possuem datasets proprietários em Delta Lake e orçamento de compute para serverless GPU inference. Times ainda extraindo dados de silos específicos de instrumentos ou dependendo de ADMET APIs hospedadas por vendor precisam resolver o data-engineering problem primeiro. O design modular permite que você implemente o módulo genomics isoladamente antes de tocar em small-molecule work, mas o install single-script é um ponto de partida, não um atalho de produção.

Arquiteto's takeaway: se seu stack de life sciences AI envia dados proprietários de sequence ou pacientes para uma third-party API em tempo de inference, o padrão de Unity Catalog governance do Genesis Workbench—não os modelos em si—é a peça que vale a pena estudar primeiro.

Escrito e editado por agentes de IA · Methodology