Un workbench des sciences de la vie ouvert et gouverné, associant le calcul accéléré NVIDIA et les modèles BioNeMo pour la biologie en une plateforme de découverte de bout en bout, s'exécutant entièrement dans votre environnement Databricks
par Mark Lee et Srijit Nair
Les leaders des sciences de la vie ont besoin d'une AI spécifique à leur domaine, prête pour la production et intégrée directement à leurs propres données gouvernées. Ensemble, Databricks et NVIDIA rendent cette transition possible : en combinant Databricks (gouvernance Unity Catalog, MLflow, Model Serving et calcul GPU serverless) avec NVIDIA BioNeMo Agent Toolkit, incluant les bibliothèques NVIDIA CUDA-X, Parabricks, et un catalogue croissant de modèles de biologie et de chimie tels que Proteina-Complexa, les clients peuvent exécuter une AI spécialisée là où se trouvent déjà leurs données, plutôt que d'envoyer des données sensibles vers des API tierces.
Cet article se concentre sur l'une des applications les plus complexes de cette combinaison : la R&D en sciences de la vie et la découverte de médicaments — un travail qui peut nécessiter des années et des milliards d'investissements, sur des données majoritairement non structurées et sensibles, à travers la génomique, la transcriptomique, la biologie structurale et la chimie — des disciplines qui partagent rarement une chaîne d'outils commune. Genesis Workbench est l'illustration concrète de cette approche.
Genesis Workbench est un modèle (blueprint) ouvert pour une application de sciences de la vie sur Databricks — un espace de travail modulaire qui rassemble les grandes étapes de la découverte informatique de médicaments sous un même toit, une seule UI et un modèle de gouvernance unique. Chaque domaine scientifique est un module déployable de manière indépendante :
Cette plateforme transforme une boîte à outils standard en un espace de travail scientifique cohérent. Mieux encore, l'ensemble de l'environnement est facilement déployable via un script unique. Grâce à une UI intuitive (point-and-click) optimisée par Databricks Apps, les chercheurs de laboratoire peuvent naviguer dans l'intégralité du flux de travail de découverte sans écrire de code. L'architecture sous-jacente repose sur des modèles open source gérés dans Unity Catalog, suivis via MLflow et hébergés sur des points de terminaison (endpoints) GPU. En centralisant les ensembles de données publics et propriétaires avec Databricks AI Search, nous avons totalement éliminé les dépendances aux API externes. En fin de compte, cette configuration fluide connecte chaque étape du processus, permettant aux résultats de la génomique de passer sans effort à la validation sur cellule unique, à la prédiction de la structure cible, au docking de candidats, à l'ADMET et au classement.
En rassemblant chaque étape de la découverte sur une plateforme native Databricks et accélérée par NVIDIA, Genesis Workbench répond directement à quatre problèmes qui ont historiquement empêché l'AI de tenir ses promesses dans la R&D en sciences de la vie :

Impliquer les scientifiques non informaticiens. Une UI React intuitive (point-and-click) — avec des visionneuses 3D interactives et des interprétations de résultats en langage clair générées par AI — permet à un biologiste d'identifier des variants, de simuler un knockout, de concevoir un liant et de classer des candidats sans écrire de code, tandis que ses collègues informaticiens conservent un accès complet aux tâches, modèles et artefacts sous-jacents avec NVIDIA à chaque étape du pipeline.
À presque chaque étape, le travail le plus lourd est effectué par l'informatique et les modèles accélérés par NVIDIA :
Étape de découverte | Technologie NVIDIA | Ce qu'elle fait dans Genesis Workbench |
|---|---|---|
Génomique | Parabricks | Fait partie du flux de travail de génomique Identification et annotation de variants germinaux accélérées par GPU — faisant ressortir les variants pathogènes à partir des données de votre lakehouse |
Cellule unique | RAPIDS-singlecell (fait partie de scverse) | Fait partie du flux de travail de cellule unique Clustering, UMAP et expression différentielle accélérés par GPU sur de grands ensembles de données à l'échelle — transformant une tâche par lots nocturne en une exploration interactive |
Petites molécules | GenMol (NV-GenMol-89M-v2) | Fait partie du flux de travail de conception guidée de molécules Génère de nouvelles molécules synthétisables à partir d'un squelette de départ (seed scaffold) dans une boucle fermée génération→évaluation→réensemencement, sous des contraintes strictes avec docking optionnel dans la récompense |
Grosses molécules | Proteina-Complexa | Fait partie du flux de travail de conception d'enzymes Conception de liants protéiques par flow-matching et échafaudage de motifs (motif scaffolding) (avec ProteinMPNN + ESMFold) — d'une structure cible à des candidats liants conçus et classés |
Diverses étapes | BioNeMo Recipes | Ajuste précisément (fine-tune) et exécute l'inférence avec des modèles pré-packagés dans le conteneur BioNeMo sur vos données, sur votre infrastructure |
Pour l'avenir, nous nous efforçons de rendre l'espace de travail encore plus accessible et puissant pour la découverte scientifique. Notre feuille de route comprend :
Genesis Workbench permet aux scientifiques de piloter en toute sécurité l'ensemble du processus de découverte de médicaments - de l'hypothèse aux thérapies classées - sans que leurs données ne quittent jamais l'environnement. En unifiant des outils accélérés par GPU tels que Parabricks, CUDA-X Data Science, Proteina-Complexa, GenMol et BioNeMo Agent Toolkit sous la gouvernance de Unity Catalog, il offre une UI intuitive conçue spécifiquement pour les scientifiques de laboratoire. Ce puissant pipeline in-silico garantit que seules les cibles ayant la plus forte probabilité accèdent au laboratoire humide, réduisant ainsi considérablement le temps et les ressources perdus. C'est la promesse d'une AI industrielle concrétisée : apporter une AI spécialisée et sécurisée directement à vos données.
Déployez Genesis Workbench dès aujourd'hui depuis notre dépôt GitHub. Nous fournissons également des compétences Claude Code pour vous aider dans vos déploiements et modifications. Les contributions sont les bienvenues, alors n'hésitez pas à contribuer au projet si vous le pouvez ! Si vous êtes déjà client Databricks et intéressé par une démonstration en direct, veuillez contacter votre équipe de compte Databricks.
Genesis Workbench est un blueprint ouvert de Databricks Industry Solutions.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.