고객 사례

AI로 인한 신약 개발 과정 변화

수백만 달러

수천 개의 소스에서
데이터 포인트 처리

업종: 생명 공학

솔루션: 추천 엔진

플랫폼 사용 사례: Delta Lake, 데이터 사이언스, 머신 러닝, ETL

CLOUD: AWS, Azure

배경 이미지

"Databricks로 이동한 덕분에 성능이 몇 배로 개선되었습니다.”

— Eliseo Papa, AstraZeneca 컴퓨팅 생물학자

AstraZeneca는 세계적으로 가장 치료가 어려운 난치병에 대한 혁신적인 치료제를 발견하여 개발 및 상용화합니다. 새로운 혁신을 하는 데 가장 큰 장애물은 새로운 데이터가 들어오는 속도에 비해 모든 과학적 정보를 활용하는 능력이 부족하다는 것입니다. AstraZeneca는 과학자들이 선별적인 결정을 내리는 데 도움이 되도록 설계한 머신 러닝 모델을 제공하면서도 적절한 성능을 내는 확장형 데이터 파이프라인을 구축할 수 있는 플랫폼이 필요했습니다. Databricks를 사용하고 나서는 데이터와 머신 러닝을 활용해서 과학자들이 더욱 빠르고, 저렴하고, 효과적으로 새로운 약물을 더욱 쉽게 발견할 수 있는 추천 엔진을 구축할 수 있었습니다.

지나치게 많은 데이터로 인해 의사 결정 속도 둔화

새로운 약물을 발견하여 개발하고 상용화에 이르기까지는 10~15년 이상이 걸리고 R&D에 50억 달러 이상을 투자하더라도 5%도 안 되는 약물만이 시장에 출시된다는 것은 잘 알려진 사실입니다. AstraZeneca는 이런 혁신 속도로는 부족하다는 것을 깨닫고 약물 발견의 성공률을 높이고 임상시험을 안전히 관리할 수 있는 데이터 기반 전략으로 바꾸었습니다.

하지만 AstraZeneca의 연구자들은 활용 가능한 모든 과학적 정보에 따라 신속하게 결정을 내리기 어려웠습니다. 데이터가 회사 내에 산재하는 소스와 외부 공개 데이터베이스에 저장되어 있었기 때문입니다. 게다가 새로운 연구 결과가 빠른 속도로 공개되고 있기 때문에 과학적 발견 속도를 따라가기란 사실상 불가능했습니다.

  • 인프라 복잡성: 유연하지만 지속적인 유지관리가 필요하지 않은 인프라를 찾아야 합니다.
  • 곳곳에 산재된 방대한 데이터: 내부 데이터 소스, 기술 문서 등의 공개 소스, 공개 데이터베이스 등을 비롯한 수백 개의 데이터 소스에서 수백만 개의 데이터 포인트를 수집하여 파싱, 분석해야 합니다.
  • 오픈 소스 Python 노트북으로 데이터 사이언스 활동을 지원할 수 있을 만큼 운영을 확장하기 어려웠습니다.

데이터 파이프라인 가속화로 ML 혁신 지원

AstraZeneca는 Databricks 레이크하우스 플랫폼을 사용하여 생물학적 인사이트 및 정보의 지식 그래프를 구축합니다. AstraZeneca의 모든 연구자는 이 그래프를 기반으로 하는 추천 시스템을 사용하여 모든 질병에 대한 새로운 타겟 가설을 생성하고, 그에 따른 모든 데이터를 활용할 수 있습니다.

  • 완전 관리형 플랫폼: 클러스터 관리 및 대규모 분석 리소스의 유지관리를 단순화했습니다.
  • 적절한 성능의 확장형 데이터 파이프라인 구축: 방대한 과학 문헌 라이브러리 및 데이터 소스에서 NLP를 활용하여 다운스트림 분석을 실행합니다.
  • 머신 러닝 혁신 가속화: 데이터 사이언티스트는 더욱 현명한 결정을 내리는 데 도움이 되는 순위 예측을 제공하는 모델을 구축, 훈련할 수 있습니다.

AI를 활용한 약물 발견 혁신

AstraZeneca는 Databricks로 이동한 후, 수천 개의 소스에서 수백만 개의 데이터 포인트를 더욱 손쉽게 처리할 수 있게 되었습니다. 확장의 장애물을 제거한 덕분에 의미 있는 인사이트를 훨씬 안정적으로 추출하여, 사람들이 더욱 건강한 삶을 영위할 수 있는 신약을 개발할 수 있습니다.

  • 운영 효율 개선: 클러스터 관리, 클러스터 자동 확장 등의 기능을 통해 데이터 수집에서 전체 머신 러닝 수명 주기 관리에 이르기까지 모든 운영이 개선되었습니다.
  • 데이터 사이언스 생산성 향상: 여러 가지 언어를 지원하는 공유된 노트북 환경으로 팀 생산성이 향상되었습니다.
  • 인사이트 추출 시간 단축: Databricks의 추천 엔진은 더욱 정보에 입각한 가설을 세우도록 지원하여, 신약 및 치료제를 출시하는 시간을 단축합니다.