Témoignage de client

How AI is changing drug discovery

Des millions

De points de données traités, provenant de milliers de sources

INDUSTRY: Life sciences

SOLUTION: Recommendation engines

PLATFORM USE CASE: Delta Lake, data science, machine learning, ETL

CLOUD: AWS, Azure

image d'arrière-plan

“By moving to Databricks, we have seen an order of magnitude improvement in performance.”

— Eliseo Papa, Computational Biologist, AstraZeneca

AstraZeneca découvre, développe et commercialise des médicaments révolutionnaires pour lutter contre des maladies comptant parmi les plus graves au monde. Il existe un grand obstacle à l'innovation : l'impossibilité d'exploiter toutes les informations scientifiques mises à la disposition du laboratoire au rythme auquel elles arrivent. Il fallait donc une plateforme permettant de créer des pipelines de données évolutifs et performants afin d'alimenter des modèles de machine learning conçus pour aider les scientifiques à prendre des décisions ciblées. Databricks a permis d'exploiter les données et le machine learning pour créer un moteur de recommandation grâce auquel les scientifiques découvrent de nouveaux médicaments avec davantage de simplicité, de rapidité, de rentabilité et d'efficacité.

Un excès de données ralentit la prise de décision

On sait aujourd'hui que la découverte, le développement et la commercialisation de nouvelles classes de médicaments peuvent prendre de 10 à 15  ans et représenter plus de cinq milliards de dollars d'investissements en R&D – sachant qu'un peu moins de 5 % des médicaments seront finalement commercialisés. Pour AstraZeneca, ce rythme d'innovation n'était clairement pas suffisant. Le laboratoire est donc passé à une approche axée sur les données afin d'augmenter son taux de réussite dans la découverte de médicaments et assurer une gestion plus sûre des essais cliniques.

Pourtant, ses chercheurs ne parvenaient toujours pas à prendre rapidement des décisions éclairées malgré toutes les informations dont ils disposaient. Ils rencontraient notamment des problèmes avec les données résidant dans des sources disparates, à la fois au sein de l’entreprise et dans des bases de données publiques externes. En outre, avec le rythme soutenu de la publication de nouvelles recherches scientifiques, il est devenu pratiquement impossible de se tenir au courant des découvertes en temps voulu.

  • Complexité de l'infrastructure : AstraZeneca avait besoin d'une infrastructure flexible mais ne nécessitant pas une maintenance constante.
  • Des quantités massives de données disjointes : il faut importer, lire et analyser des millions de points de données provenant de centaines de sources internes et publiques – documentation technique, bases de données publiques, etc.
  • Avec des notebooks Python open source, l'équipe ne parvenait pas à faire évoluer les opérations suffisamment vite pour les besoins de la data science.

Des pipelines de données plus rapides accélèrent l'innovation ML

AstraZeneca leverages the Databricks Lakehouse Platform to help build a knowledge graph of biological insights and facts. The graph powers a recommendation system which enables any AstraZeneca scientist to generate novel target hypotheses, for any disease, leveraging all of the data available to them.

  • Fully managed platform: Simplified cluster management and maintenance of analytic resources at scale.
  • Pipelines de données performants à grande échelle : possibilité d'utiliser le NLP sur une vaste bibliothèque de littérature scientifique et de sources de données en vue d'analyses en aval.
  • Accélération de l'innovation avec le machine learning : les data scientists créent et entraînent des modèles qui fournissent des prévisions de classement afin de prendre des décisions plus avisées.

Transformer la découverte de nouveaux médicaments avec l'IA

Depuis l'adoption de Databricks, AstraZeneca parvient à traiter plus facilement des millions de points de données provenant de milliers de sources. En éliminant les obstacles d'échelle, l'entreprise peut aujourd'hui extraire en toute confiance des informations utiles, susceptibles d'aboutir à des médicaments inédits qui aideront la population à vivre mieux.

  • Gain d'efficacité opérationnelle : des fonctionnalités comme la gestion et la mise à l’échelle automatique des clusters ont amélioré les opérations, de l’ingestion de données à la gestion de l’ensemble du cycle de vie du machine learning.
  • Davantage de productivité dans la Data Science : la productivité de l'équipe a beaucoup profité de l'environnement de notebooks partagés qui prend en charge différents langages.
  • Délai d’analyse réduit : le moteur de recommandation alimenté par Databricks accroît la capacité du laboratoire à formuler des hypothèses plus éclairées, ce qui a un impact direct sur le délai de commercialisation des nouveaux médicaments.