Datenpunkte, die aus Tausenden Quellen verarbeitet wurden
Es ist allgemein bekannt, dass die Erforschung, Entwicklung und Vermarktung neuer Arzneimittelklassen 10 bis 15 Jahre dauern kann und mehr als 5 Milliarden US-Dollar an Forschungs- und Entwicklungsinvestitionen getätigt werden, wobei letztendlich weniger als 5 % der Medikamente auf den Markt kommen. AstraZeneca hat erkannt, dass dieses Innovationstempo nicht ausreicht, und ist zu einem datengesteuerten Ansatz übergegangen, um die Erfolgsquote bei der Erforschung von Medikamenten zu erhöhen und die klinischen Studien sicherer zu verwalten.
Die Wissenschaftler von AstraZeneca waren jedoch immer noch nicht in der Lage, schnell fundierte Entscheidungen zu treffen, obwohl ihnen alle verfügbaren wissenschaftlichen Informationen zur Verfügung standen. Sie hatten Probleme mit Daten, die sich in unzusammenhängenden Quellen sowohl innerhalb des Unternehmens als auch in externen öffentlichen Datenbanken befanden. Da neue wissenschaftliche Forschungsergebnisse weiterhin in rasantem Tempo veröffentlicht werden, wurde es außerdem praktisch unmöglich, über das Tempo der wissenschaftlichen Entdeckungen auf dem Laufenden zu bleiben.
Komplexität der Infrastruktur: Ermitteln der Infrastruktur, die Flexibilität ermöglicht, aber keine ständige Wartung erfordert
Riesige Mengen unzusammenhängender Daten: Aufgabe der Erfassung und Analyse von Millionen von Datenpunkten in Hunderten von Datenquellen, einschließlich interner Datenquellen und öffentlicher Quellen wie Fachliteratur, öffentlicher Datenbanken usw.
Schwierigkeiten bei der Skalierung von Vorgängen zur Unterstützung von Data Science mit Open-Source-Python-Notebooks
AstraZeneca nutzt die Databricks Lakehouse Plattform, um ein Knowledge Graph mit biologischen Erkenntnissen und Fakten zu erstellen. Der Knowledge Graph unterstützt ein Empfehlungssystem, mit dem Wissenschaftler von AstraZeneca neue Zielhypothesen für jede Krankheit generieren und alle ihnen zur Verfügung stehenden Daten nutzen können.
Vollständig verwaltete Plattform: vereinfachtes Clusterverwaltung und Wartung von Analyseressourcen im großen Maßstab in Azure
Aufbau von skalierbaren, leistungsstarken Datenpipelines: diese können NLP in einer riesigen Bibliothek wissenschaftlicher Literatur und Datenquellen für nachgelagerte Analysen nutzen
Beschleunigung von Innovationen im Bereich Machine Learning: Data Scientists können Modelle entwickeln und trainieren, die Rankingvorhersagen liefern und ihnen helfen, intelligentere Entscheidungen zu treffen
Seit der Umstellung auf Databricks ist AstraZeneca in der Lage, Millionen Datenpunkte aus Tausenden von Quellen einfacher zu verarbeiten. Dank der nun möglichen Skalierung konnte AstraZeneca verlässlicher aussagekräftige Erkenntnisse gewinnen. Mit diesen können möglicherweise neuartige Medikamente entwickelt werden, die Menschen dabei helfen, ein gesünderes Leben zu führen.
Verbesserte betriebliche Effizienz: Funktionen wie Clusterverwaltung und automatische Skalierung von Clustern haben Betriebsabläufe von der Datenaufnahme bis zur Verwaltung des gesamten Lebenszyklus des Machine Learnings verbessert.
Bessere Produktivität in der Datenwissenschaft: Die gemeinsame Notebook-Umgebung mit Unterstützung für mehrere Sprachen hat die Teamproduktivität verbessert.
Schnellere Einblicke: Die von Databricks unterstützte Empfehlungs-Engine hat die Fähigkeit von AstraZeneca verbessert, fundiertere Hypothesen aufzustellen, wodurch die Markteinführungszeit für neuartige Medikamente verkürzt werden konnte.