Revenir au contenu principal

Comment TetraScience accélère la biopharmacie grâce à des données prêtes pour la production et à une intelligence scientifique

databricks-tetrascience

Publié: 16 mars 2026

Santé et sciences du vivant8 min de lecture

Summary

  • Les données, et non la puissance de calcul, constituent le goulot d'étranglement. L'IA en biopharmacie échoue car les données de laboratoire sont cloisonnées et non structurées. TetraScience résout ce problème en transformant les sorties brutes des instruments en jeux de données prêts pour l'IA à l'échelle de l'entreprise avec Databricks et NVIDIA.
  • Les résultats sont spectaculaires. Les prédictions d'anticorps qui prenaient 48 heures prennent maintenant 30 minutes, le développement de lignées cellulaires est passé de 8 mois à 2,5, et les cycles d'examen de contrôle qualité ont été réduits de plusieurs semaines à quelques jours.
  • L'approche complète surpasse les solutions ponctuelles. L'IA scientifique durable nécessite une plateforme unifiée, et non des pilotes ponctuels, pour amplifier les avantages sur l'ensemble du cycle de vie du développement de médicaments.

Les organisations de R&D pharmaceutique s'efforcent de déployer des flux de travail basés sur l'IA qui promettent de réduire les délais de développement et d'améliorer les taux de succès des candidats. Pourtant, la révolution de l'IA dans la biopharmacie s'est arrêtée à la porte du laboratoire. Les recherches de McKinsey montrent que les modes d'échec typiques des transformations numériques dans l'industrie pharmaceutique incluent « la mise en œuvre de technologies sans bénéfices commerciaux clairs » et « le recours à des systèmes inflexibles plombés par des données de faible qualité et cloisonnées », tandis que la loi d'Eroom poursuit sa marche implacable : la productivité de la R&D diminue même si les investissements en IA augmentent.

Le défi principal n'est pas la puissance de calcul ni la sophistication des modèles, mais l'absence de données scientifiques prêtes pour la production, natives de l'IA, et de flux de travail alimentés par l'IA qui fournissent des résultats à l'échelle de l'entreprise. Ce qui manque, c'est une plateforme capable de transformer en continu des sorties de laboratoire hétérogènes — des analyses de chromatographie au séquençage unicellulaire — en jeux de données harmonisés et riches en contexte ; d'encoder les connaissances du domaine scientifique dans des ontologies et des flux de travail réutilisables ; d'opérationnaliser les modèles d'IA en applications explicables et auditables ; et de fournir ces capacités sur toute la chaîne de valeur — du criblage d'anticorps et de la sélection de clones en découverte à la libération de lots et au suivi de la conformité en fabrication.

Le besoin d'un système d'exploitation pour l'intelligence scientifique

Les premiers efforts de la biopharmacie pour construire une IA scientifique ont ressemblé à une colonie d'artistes — chaque application étant fabriquée à la main par des spécialistes qui construisent des intégrations personnalisées, des pipelines de données sur mesure et des modèles uniques pour chaque flux de travail. Bien que cela ait fonctionné pour des projets pilotes, cela s'effondre sous les exigences de production : le criblage à haut débit nécessite un support décisionnel en temps réel sur des millions de points de données, le développement de produits biologiques nécessite des modèles prédictifs qui suivent des centaines de paramètres à travers des lignées cellulaires, et les régulateurs attendent des pistes d'audit complètes avec une explicabilité complète de l'IA.

C'est le défi que le partenaire de Databricks, TetraScience, s'est donné pour mission de résoudre. Depuis cinq ans, TetraScience construit le Tetra OS — une plateforme de données scientifiques et d'IA comprenant quatre couches intégrées. Le Tetra Data Foundry replateforme automatiquement les données des instruments dans des schémas natifs de l'IA. Le Tetra Use Case Factory fournit des applications d'IA de qualité production pour les flux de travail de R&D, de fabrication et de qualité. Tetra AI sert de couche de raisonnement et d'orchestration unifiant les données, les flux de travail et l'expertise. Ces composants sont soutenus par les Sciborgs de Tetra — des hybrides scientifiques-ingénieurs qui traduisent les exigences en applications d'IA prêtes pour la production.

Le partenariat de TetraScience avec Databricks fournit la base d'analyse d'entreprise qui rend possibles les cas d'utilisation de la Factory à grande échelle. Une fois que la Foundry replateforme les données scientifiques dans des formats natifs de l'IA, ces données affluent vers le Unity Catalog de Databricks sous forme de tables Delta — créant un lakehouse unifié et gouverné où des décennies de résultats expérimentaux deviennent interrogeables à l'aide des API SQL et Spark. Les cas d'utilisation de la Factory tirent parti de la pile de la plateforme d'intelligence Databricks pour fournir des flux de travail sans code et à faible code nécessitant une configuration client minimale. Les modèles architecturaux démontrés dans Genesis Workbench ont permis le développement de flux de travail évolutifs utilisant NVIDIA BioNeMo et Nemotron Parse. Les scientifiques accèdent à des visualisations prêtes à l'emploi et à des informations prédictives sans avoir à écrire de pipelines ni à gérer d'infrastructure, tandis que les équipes de données conservent l'extensibilité pour créer des analyses personnalisées lorsque nécessaire. Quelques exemples :

Résoudre le goulot d'étranglement des données des CRO : de jours à minutes

Les données précliniques provenant des organisations de recherche sous contrat arrivent souvent dans des formats hétérogènes — PDF, feuilles de calcul et exportations d'instruments difficiles à analyser, à réconcilier et à faire confiance à grande échelle. Les données sont scientifiquement riches, mais largement inaccessibles aux équipes sans jours, voire semaines, de révision manuelle et de reformatage par étude. Pour les organisations menant des centaines d'études par an, cette friction se traduit par des semaines et des mois de temps perdu sur des chemins critiques de soumission IND.

Le produit CRO Connect automatise l'ensemble du flux de travail en utilisant NVIDIA Nemotron Parse pour extraire des résultats structurés à partir de PDF et de sorties d'instruments, tandis que le raisonnement basé sur LLM signale les anomalies et fournit un contexte explicatif. Une grande entreprise biopharmaceutique a signalé une réduction de 80 % du temps de révision (de 2-3 heures par étude à 20-40 minutes), une diminution de 30-45 % des retards dans la disponibilité des données et une accélération de 10-20 % de la préparation des IND.

Réduire les mois de développement d'anticorps : de l'itération à la prédiction

Le développement traditionnel d'anticorps thérapeutiques nécessite 6 à 10 semaines par cycle d'optimisation à travers plusieurs modalités d'essais — chacun générant des données dans des formats différents avec des métadonnées incohérentes.

Le produit AI-Augmented Biologics Discovery, déployé en production chez une entreprise du top 20 pharmaceutique, harmonise les données multi-essais et applique des modèles de langage protéique (tels que le modèle AMPLIFY du NVIDIA BioNeMo Framework) pour prédire les profils de liaison et de développabilité in silico. Les scientifiques obtiennent désormais des prédictions de liaison avec une précision de 94 % en 30 minutes contre 48 heures — soit près du double de la précision de 50 % qui est la norme avec les logiciels des fournisseurs. En éliminant les cycles d'optimisation inutiles, les organisations obtiennent une amélioration de 25-50 % de la qualité des candidats et une accélération jusqu'à 50 % de l'identification des leads — améliorant la probabilité technique de succès jusqu'à 5 %.

Rapport

L'intelligence des données remodèle les Secteurs d'activité

Identifier les clones à succès en 2,5 mois au lieu de 8

Le développement de lignées cellulaires consomme en moyenne 6 à 8 mois — un délai qui a un impact direct sur le moment où les programmes de produits biologiques peuvent entrer en fabrication. L'assistant de sélection de clones principaux de TetraScience a réduit ce délai à 2,5 mois en agrégeant les données de plusieurs sources d'instruments et en appliquant le modèle VISTA-2D de NVIDIA pour analyser les modèles de morphologie cellulaire et Geneformer sur les frameworks BioNeMo et MONAI pour traiter les signatures transcriptomiques prédictives de la stabilité à long terme.

En identifiant des « super clones » avec un titre et une viabilité élevés et soutenus sur plus de 20 générations, l'application permet des améliorations 10x du titre de fabrication, ce qui se traduit par une réduction de 85 % du coût des marchandises — représentant des centaines de millions d'économies sur les coûts de fabrication pour des produits biologiques à succès.

Éliminer le goulot d'étranglement de 50 millions de dollars pour la révision : de semaines à jours

Les équipes de contrôle qualité passent 40 à 50 % de leur temps à examiner manuellement les données de chromatographie de routine qui sont déjà conformes — vérification des événements de la piste d'audit, comparaison visuelle des pics avec les lots de référence, et cycles de 5+ itérations analyste-réviseur. Les laboratoires modernes génèrent 10 000 à 20 000 tests par an, créant des millions d'événements de piste d'audit que l'examen manuel ne peut pas gérer à grande échelle. Le coût : surcharge cognitive, anomalies manquées et retards de libération de lots qui peuvent coûter 800 000 à 1 million de dollars par jour en revenus perdus.

L'assistant Review-by-Exception (RbE) passe d'un examen manuel exhaustif à une supervision intelligente et automatisée. Les modèles d'IA entraînés sur les lots de référence spécifiques au client analysent les profils de chromatogrammes et signalent les déviations — détectant des différences subtiles dans l'intensité des pics et les temps de rétention que l'inspection visuelle pourrait manquer. Les vérifications de conformité basées sur des règles font apparaître les événements à haut risque tout en filtrant les activités de routine. Les organisations qui déploient RbE signalent des cycles de libération de lots compressés de semaines à jours, les experts récupérant jusqu'à 198 000 heures par an pour se concentrer sur les exceptions réelles.

Des pilotes à la production

L'approche complète de TetraScience réussit là où les solutions ponctuelles et les efforts DIY échouent grâce à trois différenciateurs : la productisation (chaque application d'IA construite comme un composant réutilisable créant des économies d'échelle), le modèle Sciborg (comblant le fossé entre les scientifiques et les équipes informatiques), et l'ouverture de la plateforme (les données affluent vers Databricks et d'autres environnements d'analyse plutôt que de créer des silos propriétaires).

Les organisations qui déploient aujourd'hui une IA scientifique à l'échelle industrielle — passant de projets pilotes artisanaux à des applications de production couvrant la découverte, le développement, la fabrication et la qualité — accumuleront des avantages en termes de vitesse, de qualité et d'innovation que les concurrents ne pourront pas facilement reproduire.

TetraScience, Databricks et NVIDIA fournissent la base complète : des applications d'IA scientifique prêtes pour la production construites sur une infrastructure de calcul, de données et d'analyse de niveau entreprise. Ensemble, elles permettent ce que les PDG promettent — des percées pilotées par l'IA qui couvrent la chaîne de valeur, de l'identification des hits à la fabrication commerciale.

Pour plus d'informations sur Tetra OS et les applications Factory de TetraScience, visitez tetrascience.com.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.