Les biopsies liquides permettent un dépistage et un monitoring non invasifs du cancer en analysant les biomarqueurs du cancer dans le sang, mais les signaux peuvent être épars et bruités. Exai Bio a été le pionnier de la biopsie liquide basée sur l'IA en utilisant de nouveaux biomarqueurs d'ARN de petite taille. Dans de récents travaux, Exai-1 et Orion, deux nouvelles IA génératives pour l'ARN acellulaire, ont réalisé des percées dans le débruitage des signaux et la détection précoce du cancer. Ces avancées ont été rendues possibles par l'architecture lakehouse de Databricks et son infrastructure d'IA dans le cloud. En unifiant de grands datasets génomiques et en fournissant des outils de ML gérés (MLflow, Workflows, clusters évolutifs), Databricks permet aux chercheurs d'Exai d'entraîner de grands modèles multimodaux sur des milliers d'échantillons de patients. Dans cet effort commun, nous mettons en lumière les avancées techniques d'Exai Bio et montrons comment l'écosystème lakehouse et MLOps de Databricks accélère l'IA biomédicale de pointe.
Modèles de fondation multimodaux pour la biopsie liquide
Les dernières recherches d'Exai Bio présentent de grands modèles génératifs adaptés aux données de biopsie liquide. Ces modèles intègrent les informations de séquence, l'abondance moléculaire et des métadonnées riches pour apprendre des représentations de haute qualité des ARN associés au cancer.
- Exai-1 (modèle de fondation cfRNA): un auto-encodeur variationnel basé sur un transformeur qui associe les plongements de séquences d'ARN aux profils d'abondance d'ARN acellulaire (cfRNA). Exai-1 est pré-entraîné sur des datasets massifs (plus de 306 milliards de jetons de séquence provenant de 13 014 échantillons de sang), apprenant ainsi une structure latente biologiquement pertinente de l'expression du cfRNA. En exploitant à la fois les données de séquence (via les plongements du modèle de langage RNA-FM) et les données d'expression, Exai-1 « améliore la fidélité du signal, réduit le bruit technique et améliore la détection des maladies en générant des profils de cfRNA synthétiques ». En pratique, Exai-1 peut débruiter les mesures de cfRNA éparses et même augmenter les datasets : les classifieurs entraînés sur les profils reconstruits par Exai-1 surpassent systématiquement ceux entraînés sur les données brutes. Cette approche d'apprentissage par transfert génératif crée efficacement un modèle de fondation pour toute tâche de diagnostic basée sur le cfRNA, par exemple, en utilisant les mêmes plongements pré-entraînés pour détecter d'autres cancers ou de nouveaux biomarqueurs.
- Orion (OncRNA Generative Classifier): Un auto-encodeur variationnel (VAE) spécialisé pour les ARN non codants orphelins circulants (oncRNA), qui sont de petits ARN sécrétés par les tumeurs. Orion a une architecture VAE jumelle : il prend en entrée un vecteur de comptage des oncRNA associés au cancer et un vecteur d'ARN de contrôle (par ex. des ARN de ménage endogènes). Chaque entrée alimente un encodeur distinct ; leurs sorties permettent d'entraîner un classifieur robuste et de reconstruire la distribution sous-jacente des oncRNA. Fait important, l'entraînement d'Orion inclut des pertes contrastives et de classification : une perte de marge triplet rapproche les échantillons ayant le même phénotype (cancer vs. témoin) et éloigne les phénotypes différents, éliminant ainsi les effets de batch et les variations techniques. La représentation vectorielle apprise est ensuite utilisée par un classifieur en aval pour prédire la présence d'un cancer. Sur une cohorte de 1 050 patients atteints d'un cancer du poumon et de témoins, Orion a atteint une sensibilité de 94 % pour une spécificité de 87 % pour la détection du CPNPC à tous les stades, surpassant les méthodes standard d'environ 30 % sur les données non vues. Ce modèle génératif semi-supervisé débruite automatiquement les signaux d'ARNac et produit une empreinte compacte spécifique au cancer, permettant une détection précoce plus précise que les essais précédents.

Figure 1 : Architecture du modèle Orion d'Exai Bio pour la biopsie liquide. Image tirée de Karimzadeh et al., Nat Commun.
Ensemble, ces modèles forment un framework d'IA évolutif pour la biopsie liquide. Exai-1 fournit un « modèle de langage » cfRNA à usage général qui peut générer des profils d'ARN réalistes et améliorer les classifieurs en aval. Orion affine cette approche au problème spécifique du dépistage du cancer du poumon. Dans les deux cas, les modèles se généralisent à différentes conditions – Exai-1 « facilite la traduction inter-biofluides et la compatibilité des tests » en démêlant les vrais signaux biologiques des facteurs de confusion. Le résultat est une nouvelle génération d'outils d'IA capables d'exploiter les schémas subtils des biomarqueurs cfRNA pour la détection précoce du cancer et la découverte de biomarqueurs.
Databricks Data Intelligence and AI Platform : l'infrastructure sous-jacente
Ces avancées en matière d'IA sont rendues possibles par la plateforme unifiée d'analytique de données de Databricks. Les fonctionnalités clés incluent :
- Stockage unifié Lakehouse (Delta): nous stockons toutes les métadonnées (informations sur les échantillons, données de laboratoire et d'expérimentation) dans des tables Databricks Delta. Ce lakehouse unique empêche les silos de données et permet des analyses en temps réel. Comme le note la solution de santé de Databricks, le lakehouse « rassemble à grande échelle les données des patients, de la recherche et les données opérationnelles » et élimine les silos hérités, ce qui rend les données génomiques et cliniques instantanément requêtables. Par exemple, les plus de 13 000 échantillons de sang d'Exai (sérum et plasma) et plus de 10 000 jeux de données small-RNA-seq antérieurs sont tous enregistrés dans des tables Delta, qui peuvent être rapidement filtrées et jointes pour l'entraînement des modèles.
- Compute et clusters évolutifs: Les clusters cloud natif de Databricks permettent aux chercheurs de lancer des instances GPU ou à haute mémoire sans effort DevOps approfondi. Databricks nous permet d'avancer rapidement. La gestion des clusters est intuitive, et des fonctionnalités comme l'arrêt automatique et les tableaux de bord des coûts permettent de maîtriser les budgets. Cette mise à l'échelle à la demande a permis l'optimisation et l'entraînement d'Exai-1 et d'Orion sur des centaines de cœurs de CPU/GPU. Les Databricks Workflows (anciennement Jobs) organisent le « compute » : les chercheurs peuvent lancer des pipelines ETL et d'entraînement à plusieurs étapes avec des dépendances définies, parallélisant les tâches sans écrire de code d'orchestration complexe.
- MLflow pour le MLOps: chaque exécution d'Experimentation (hyperparamètres, datasets, métriques, artefacts) est suivie dans MLflow, qui est étroitement intégré à Databricks. Databricks fournit toute la configuration de l'environnement MLflow, comme le serveur de suivi, et le rend disponible sans aucune installation. Le suivi de l'Experimentation et le registre de modèles de MLflow garantissent la reproductibilité et la collaboration. Avec MLflow géré, la journalisation des métriques et des artefacts de dizaines de modèles a vraiment permis de réaliser des études d'ablation et d'optimiser les fonctionnalités qui améliorent différents aspects de la performance du modèle.
- Environnements reproductibles: les Databricks Container Services et les Repos Git (avec CI/CD) verrouillent les dépendances logicielles pour chaque pipeline. Cela a été crucial pour la pile de recherche d'Exai Bio (y compris les outils de bio-informatique personnalisés), garantissant que chaque membre de l'équipe exécute les modèles dans des environnements identiques. En bref, Databricks fournit une plateforme MLOps clé en main : ingestion de données avec Spark, suivi des expériences avec MLflow, orchestration avec Jobs/Workflows et compute élastique avec mise à l'échelle automatique.
Impact sur la détection du cancer et la découverte de biomarqueurs
Les avancées scientifiques et techniques combinées ont des implications majeures :
- Détection précoce améliorée – En amplifiant le signal cancéreux de l'ARNcf par rapport au bruit de fond des molécules d'ARN sanguin, nos modèles d'IA peuvent détecter le cancer à des stades précoces. Le débruitage d'Exai-1 produit des signaux plus clairs, même dans des échantillons de sang de faible volume, tandis que l'intégration générative d'Orion atteint une sensibilité élevée (94 %) pour le cancer du poumon à un stade précoce. De telles améliorations pourraient se traduire par des tests de dépistage plus fiables (par exemple, des analyses de sang annuelles) qui détectent les tumeurs à des stades curables.
- Nouvelles perspectives sur les biomarqueurs – Les modèles apprennent à partir des données brutes d'ARN, ce qui réduit les biais des panels ciblés. Par exemple, Orion a identifié des centaines de nouveaux oncARN à partir des données TCGA et tissulaires, puis a validé leur importance dans le sang. L'espace latent d'Exai-1 combine les informations sur la séquence, la structure et l'abondance de l'ARN, ce qui pourrait mettre en évidence des biomarqueurs jusqu'alors négligés. Fait important, le paradigme de l'apprentissage par transfert nous permet d'intégrer rapidement de nouvelles découvertes (par exemple, en échangeant de nouveaux jetons de séquence) et de procéder à un réglage fin sur la plateforme unifiée.
- Augmentation de données générative – Exai-1 peut simuler des profils d'ARNcf réalistes en échantillonnant à partir de son décodeur. Ces données synthétiques améliorent l'entraînement du classifieur, comme le montrent les AUC plus élevées lors de l'utilisation des reconstructions d'Exai-1. En pratique, cela signifie que les signatures de cancers rares peuvent être apprises de manière plus robuste malgré le nombre limité d'échantillons réels. En d'autres termes, le modèle de fondation atténue la rareté des données, un facteur essentiel puisque « la détection des cancers rares… nécessite des modèles de fondation et des données d'entraînement substantielles ».
- Collaboration de recherche évolutive – En s'appuyant sur Databricks, l'équipe pluridisciplinaire d'Exai (biologistes, bio-informaticiens, biostatisticiens, scientifiques ML et data engineers) peut collaborer de manière transparente. Les Data scientists exécutent PyTorch et Spark côte à côte ; les biostatisticiens queryent des cohortes avec R ; les biologistes loguent de nouveaux échantillons traités, et les rapports/tableaux de bord se refreshent automatiquement. Cette boucle de rétroaction rapide a permis à l'équipe d'Exai de présenter les applications de son système de biopsie liquide et d'IA dans plusieurs types de cancer, ce qui a abouti à sept publications de conférence en 18 mois. Cela illustre comment une infrastructure d'IA de qualité professionnelle accélère la R&D en sciences de la vie.
Perspectives
La collaboration entre Exai Bio et Databricks montre comment les modèles d'IA de pointe et l'architecture cloud moderne repoussent ensemble les frontières du diagnostic du cancer. Les modèles de fondation et d'IA générative d'Exai Bio (Exai-1 et Orion) démontrent que l'apprentissage génératif profond peut extraire des signaux puissants des biopsies liquides. Ces avancées reposent sur le Lakehouse de Databricks, qui unifie des données biomédicales hétérogènes, et sur ses outils de ML gérés (MLflow, Workflows, Pipelines) qui rendent l'expérimentation à grande échelle pratique et reproductible. Pour l'avenir, nous continuerons à affiner nos modèles et nos pipelines. Ensemble, Exai Bio et Databricks posent les bases d'une oncologie de précision basée sur l'IA, qui est à la fois évolutive et cliniquement pertinente.
Sources : Exai Bio et al., « A multi-modal cfRNA language model for liquid biopsy » (Nature Machine Intelligence, 2025) ; Exai Bio et al., Nature Commun. (2024) « Deep generative AI models analyzing circulating orphan non-coding RNAs… » ; documentation et blogs de Databricks.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original