REFERENZA

How AI is changing drug discovery

Millions

di data point elaborati da migliaia di sorgenti

INDUSTRY: Life sciences

SOLUTION: Recommendation engines

PLATFORM USE CASE: Delta Lake, data science, machine learning, ETL

CLOUD: AWS, Azure

immagine sfondo

“By moving to Databricks, we have seen an order of magnitude improvement in performance.”

— Eliseo Papa, Computational Biologist, AstraZeneca

AstraZeneca scopre, sviluppa e commercializza farmaci innovativi per alcune delle malattie più gravi. Il principale ostacolo all'innovazione è l'impossibilità di attingere a tutte le informazioni scientifiche disponibili con un ritmo superiore a quello con cui vengono acquisiti nuovi dati. L'azienda aveva bisogno di una piattaforma per costruire pipeline di dati scalabili ed efficienti che alimentassero i modelli di machine learning studiati per aiutare gli scienziati a prendere decisioni mirate. Grazie a Databricks, può sfruttare dati e machine learning per costruire un motore di raccomandazione che consente agli scienziati di scoprire nuovi farmaci più facilmente e velocemente, con costi minori e maggiore efficacia.

Troppi dati rallentano le decisioni

È noto che la scoperta, lo sviluppo e la commercializzazione di nuove classi di farmaci possono richiedere 10-15 anni e investimenti in R&D di oltre 5 miliardi di dollari, per portare sul mercato meno del 5% dei farmaci. Ben consapevole che questo ritmo di innovazione non è sufficiente, AstraZeneca ha adottato un approccio guidato dai dati per aumentare le percentuali di successo nella scoperta di farmaci e avere una gestione più sicura dei test clinici.

Tuttavia, i loro scienziati non riuscivano ancora a prendere decisioni informate, nonostante tutte le informazioni scientifiche a loro disposizione. Faticavano in particolare ad accedere ai dati sparsi fra sorgenti scollegate, sia all'interno dell'azienda, sia su database pubblici esterni. Inoltre, data la rapidità con cui vengono pubblicati nuovi studi scientifici, era diventato praticamente impossibile restare al passo con la scoperta scientifica.

  • Complessità dell'infrastruttura: bisognava trovare un'infrastruttura che offrisse la necessaria flessibilità senza richiedere una manutenzione continua.
  • Grandi quantità di dati scollegati: l'azienda deve acquisire, elaborare e analizzare milioni di data point su centinaia di sorgenti di dati, fra cui sorgenti interne e fonti pubbliche quali letteratura tecnica, database pubblici ecc.
  • Difficoltà a espandere le attività operative per supportare il lavoro di data science con notebook Python open-source.

Pipeline di dati più veloci alimentano l'innovazione ML

AstraZeneca leverages the Databricks Lakehouse Platform to help build a knowledge graph of biological insights and facts. The graph powers a recommendation system which enables any AstraZeneca scientist to generate novel target hypotheses, for any disease, leveraging all of the data available to them.

  • Fully managed platform: Simplified cluster management and maintenance of analytic resources at scale.
  • Costruzione di pipeline di dati performanti su larga scala: capacità di sfruttare il linguaggio naturale (NLP) su una vasta libreria di letteratura scientifica e fonti di dati per l'analisi a valle.
  • Accelerare l'innovazione nel machine learning: i data scientist vengono messi nelle condizioni di costruire e addestrare modelli che forniscono previsioni di classificazione per poter prendere decisioni più efficaci.

Trasformare le modalità di scoperta dei farmaci con l'AI

Con il passaggio a Databricks, AstraZeneca è ora in grado di elaborare più facilmente milioni di data point da migliaia di sorgenti. Il superamento della barriera dimensionale ha consentito all'azienda di estrapolare informazioni approfondite significative in modo più affidabile, realizzando nuovi farmaci che contribuiscono a migliorare la vita delle persone.

  • Maggiore efficienza operativa: funzionalità come la gestione e l'autoscalabilità dei cluster hanno migliorato le attività operative dall'acquisizione dei dati alla gestione dell'intero ciclo di vita del machine learning.
  • Maggiore produttività nella data science: l'ambiente dei notebook condivisi con supporto di diversi linguaggi ha aumentato la produttività dei team.
  • Tempi più rapidi per estrarre informazioni approfondite: il motore di raccomandazione alimentato da Databricks ha migliorato la capacità di formulare ipotesi più fondate, contribuendo ad accelerare il time-to-market per nuovi farmaci e medicinali.