Revenir au contenu principal

Genesis Workbench : un blueprint pour l'AI sectorielle dans les sciences de la vie, propulsé par Databricks et NVIDIA

Un workbench des sciences de la vie ouvert et gouverné, associant le calcul accéléré NVIDIA et les modèles BioNeMo pour la biologie en une plateforme de découverte de bout en bout, s'exécutant entièrement dans votre environnement Databricks

par Mark Lee et Srijit Nair

  • Genesis Workbench est un blueprint Databricks ouvert et modulaire qui intègre les outils de calcul accéléré de NVIDIA, y compris BioNeMo et Parabricks, dans un environnement unique et sécurisé pour la découverte de médicaments de bout en bout.
  • La plateforme simplifie la R&D complexe en fournissant une interface sans code par pointer-cliquer qui permet aux scientifiques de laboratoire d'exécuter des tâches de génomique et de conception moléculaire tout en maintenant une sécurité stricte de l'IP via la gouvernance Unity Catalog.
  • En centralisant les données et en éliminant les dépendances aux API externes, le workbench rationalise l'ensemble du pipeline de recherche, de l'hypothèse initiale au candidat thérapeutique classé, en conservant les données propriétaires au sein d'un périmètre contrôlé et gouverné.

Mettre la découverte de médicaments accélérée par GPU au service de vos données

Les leaders des sciences de la vie ont besoin d'une AI spécifique à leur domaine, prête pour la production et intégrée directement à leurs propres données gouvernées. Ensemble, Databricks et NVIDIA rendent cette transition possible : en combinant Databricks (gouvernance Unity Catalog, MLflow, Model Serving et calcul GPU serverless) avec NVIDIA BioNeMo Agent Toolkit, incluant les bibliothèques NVIDIA CUDA-X, Parabricks, et un catalogue croissant de modèles de biologie et de chimie tels que Proteina-Complexa, les clients peuvent exécuter une AI spécialisée là où se trouvent déjà leurs données, plutôt que d'envoyer des données sensibles vers des API tierces.

Cet article se concentre sur l'une des applications les plus complexes de cette combinaison : la R&D en sciences de la vie et la découverte de médicaments — un travail qui peut nécessiter des années et des milliards d'investissements, sur des données majoritairement non structurées et sensibles, à travers la génomique, la transcriptomique, la biologie structurale et la chimie — des disciplines qui partagent rarement une chaîne d'outils commune. Genesis Workbench est l'illustration concrète de cette approche.

Qu'est-ce que Genesis Workbench ?

Genesis Workbench est un modèle (blueprint) ouvert pour une application de sciences de la vie sur Databricks — un espace de travail modulaire qui rassemble les grandes étapes de la découverte informatique de médicaments sous un même toit, une seule UI et un modèle de gouvernance unique. Chaque domaine scientifique est un module déployable de manière indépendante :

  • Génomique
  • Cellule unique
  • Grosses molécules
  • Petites molécules
  • Fine-tuning de modèles NVIDIA BioNeMo

Cette plateforme transforme une boîte à outils standard en un espace de travail scientifique cohérent. Mieux encore, l'ensemble de l'environnement est facilement déployable via un script unique. Grâce à une UI intuitive (point-and-click) optimisée par Databricks Apps, les chercheurs de laboratoire peuvent naviguer dans l'intégralité du flux de travail de découverte sans écrire de code. L'architecture sous-jacente repose sur des modèles open source gérés dans Unity Catalog, suivis via MLflow et hébergés sur des points de terminaison (endpoints) GPU. En centralisant les ensembles de données publics et propriétaires avec Databricks AI Search, nous avons totalement éliminé les dépendances aux API externes. En fin de compte, cette configuration fluide connecte chaque étape du processus, permettant aux résultats de la génomique de passer sans effort à la validation sur cellule unique, à la prédiction de la structure cible, au docking de candidats, à l'ADMET et au classement.

Comment Genesis Workbench accélère la R&D en sciences de la vie

En rassemblant chaque étape de la découverte sur une plateforme native Databricks et accélérée par NVIDIA, Genesis Workbench répond directement à quatre problèmes qui ont historiquement empêché l'AI de tenir ses promesses dans la R&D en sciences de la vie :

  • Génération de flux de travail assistée par AI. Utilisez l'espace de travail de manière déclarative : décrivez la science que vous souhaitez et obtenez un pipeline prêt à l'emploi, sans configuration complexe ni code répétitif. Cela abaisse la barrière de "je sais comment construire cela" à "je sais ce que je veux", permettant à davantage de scientifiques de transformer leurs idées en expériences et d'innover plus rapidement. Vortex est le canevas visuel qui rend cela possible.
  • Prise en charge du MCP. Genesis Workbench devient un pilier pour l'écosystème AI plus large : ses modèles et flux de travail deviennent des outils que n'importe quel agent ou client MCP peut appeler, de sorte que la plateforme alimente vos assistants et pipelines au lieu de rester isolée. Un serveur compagnon Model Context Protocol (MCP) l'expose à Databricks AI Playground, Claude, Cursor ou vos propres agents ; déployé automatiquement avec le cœur du système.
  • Sécurité et risques liés à la IP. Les séquences, les bibliothèques de composés, les résultats d'essais et les données des patients figurent parmi les actifs les plus réglementés d'une organisation. Les modèles et les données sont téléchargés une seule fois dans Unity Catalog, l'inférence s'exécute sur des points de terminaison Model Serving dans votre propre espace de travail, et il n'y a aucune dépendance à des API externes lors de l'exécution — votre IP ne quitte jamais votre périmètre gouverné.
  • Un paysage de modèles en constante évolution. La bio-AI évolue rapidement. L'architecture modulaire de Genesis Workbench traite chaque modèle comme un sous-module déployable de manière indépendante dans le même substrat de registre et de service, de sorte que l'adoption de GenMol, Proteina-Complexa ou d'un modèle plus récent est une simple étape de déploiement, et non une réécriture.
  • Fine-tuning. Le fine-tuning de modèles open source sur des ensembles de données propriétaires hautement gouvernés dans votre Lakehouse permet d'exploiter facilement les connaissances internes existantes pour accélérer l'idéation et la découverte de candidats.
  • Interconnexions complexes entre disciplines. Parce que chaque module partage une plateforme, un modèle de gouvernance et un substrat de tâches/services/MLflow unique, les disciplines se connectent nativement — avec des transferts intégrés à l'application (y compris la résolution gène→séquence) au lieu de copier-coller fragiles entre les systèmes. L'espace de travail est la couche d'intégration.

Impliquer les scientifiques non informaticiens. Une UI React intuitive (point-and-click) — avec des visionneuses 3D interactives et des interprétations de résultats en langage clair générées par AI — permet à un biologiste d'identifier des variants, de simuler un knockout, de concevoir un liant et de classer des candidats sans écrire de code, tandis que ses collègues informaticiens conservent un accès complet aux tâches, modèles et artefacts sous-jacents avec NVIDIA à chaque étape du pipeline.

À presque chaque étape, le travail le plus lourd est effectué par l'informatique et les modèles accélérés par NVIDIA :

Étape de découverte

Technologie NVIDIA

Ce qu'elle fait dans Genesis Workbench

Génomique

Parabricks

Fait partie du flux de travail de génomique

Identification et annotation de variants germinaux accélérées par GPU — faisant ressortir les variants pathogènes à partir des données de votre lakehouse

Cellule unique

RAPIDS-singlecell (fait partie de scverse)

Fait partie du flux de travail de cellule unique

Clustering, UMAP et expression différentielle accélérés par GPU sur de grands ensembles de données à l'échelle — transformant une tâche par lots nocturne en une exploration interactive

Petites molécules

GenMol (NV-GenMol-89M-v2)

Fait partie du flux de travail de conception guidée de molécules

Génère de nouvelles molécules synthétisables à partir d'un squelette de départ (seed scaffold) dans une boucle fermée génération→évaluation→réensemencement, sous des contraintes strictes avec docking optionnel dans la récompense

Grosses molécules

Proteina-Complexa

Fait partie du flux de travail de conception d'enzymes

Conception de liants protéiques par flow-matching et échafaudage de motifs (motif scaffolding) (avec ProteinMPNN + ESMFold) — d'une structure cible à des candidats liants conçus et classés

Diverses étapes

BioNeMo Recipes

Ajuste précisément (fine-tune) et exécute l'inférence avec des modèles pré-packagés dans le conteneur BioNeMo sur vos données, sur votre infrastructure

L'avenir de Genesis Workbench

Pour l'avenir, nous nous efforçons de rendre l'espace de travail encore plus accessible et puissant pour la découverte scientifique. Notre feuille de route comprend :

  • Génération automatisée de workflows : Nous introduisons une automatisation basée sur l'AI pour générer des workflows scientifiques complexes, facilitant ainsi l'intégration transparente de nouveaux modèles et de diverses sources de données.
  • Intégration des compétences NVIDIA AI : Nous intégrons les compétences NVIDIA BioNeMo et la manière dont BioNeMo Agent Toolkit peut améliorer l'intelligence et les capacités natives de la plateforme. D'autres compétences seront intégrées au fur et à mesure de leur disponibilité.
  • Services MCP : Nous prévoyons d'ajouter des services MCP (Model Context Protocol) pour garantir que Genesis Workbench puisse facilement fournir des données et des insights de haute qualité aux applications consommatrices en aval.

De la maladie au candidat, sur une seule plateforme gouvernée

Genesis Workbench permet aux scientifiques de piloter en toute sécurité l'ensemble du processus de découverte de médicaments - de l'hypothèse aux thérapies classées - sans que leurs données ne quittent jamais l'environnement. En unifiant des outils accélérés par GPU tels que Parabricks, CUDA-X Data Science, Proteina-Complexa, GenMol et BioNeMo Agent Toolkit sous la gouvernance de Unity Catalog, il offre une UI intuitive conçue spécifiquement pour les scientifiques de laboratoire. Ce puissant pipeline in-silico garantit que seules les cibles ayant la plus forte probabilité accèdent au laboratoire humide, réduisant ainsi considérablement le temps et les ressources perdus. C'est la promesse d'une AI industrielle concrétisée : apporter une AI spécialisée et sécurisée directement à vos données.

Prêt à accélérer votre découverte de médicaments ?

Déployez Genesis Workbench dès aujourd'hui depuis notre dépôt GitHub. Nous fournissons également des compétences Claude Code pour vous aider dans vos déploiements et modifications. Les contributions sont les bienvenues, alors n'hésitez pas à contribuer au projet si vous le pouvez ! Si vous êtes déjà client Databricks et intéressé par une démonstration en direct, veuillez contacter votre équipe de compte Databricks.

Genesis Workbench est un blueprint ouvert de Databricks Industry Solutions.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.