신약 개발은 느리고 비용이 많이 드는 것으로 악명이 높습니다. 평균 연구 개발(R&D) 수명 주기는 10~15년이며, 상당수의 후보 물질이 임상 시험 중에 실패합니다. 과정 초기에 적절한 단백질 표적을 식별하는 것이 주요 병목 현상이었습니다.
단백질은 생물체의 "일꾼 분자"로, 반응을 촉매하고, 분자를 운반하며, 대부분의 현대 약물의 표적으로 작용합니다. 단백질을 신속하게 분류하고, 그 특성을 이해하며, 연구가 덜 된 후보 를 식별하는 능력은 발견 프로세스를 획기적으로 가속화할 수 있습니다(예: Wozniak 등, 2024, Nature Chemical Biology).
바로 이 지점에서 데이터 엔지니어링, 머신러닝(ML), 생성형 AI의 융합이 혁신을 이룹니다. 실제로 이 전체 파이프라인을 단일 플랫폼인 Databricks 데이터 인텔리전스 플랫폼에서 구축할 수 있습니다.
당사의 AI 기반 신약 개발 솔루션 가속기 는 네 가지 주요 프로세스를 통해 엔드투엔드 워크플로를 시연합니다:
각 단계를 살펴보겠습니다:
원시 생물학적 데이터는 깨끗하고 분석 준비가 된 형식으로 제공되는 경우가 거의 없습니다. 소스 데이터는 단백질 서열을 나타내는 표준 형식인 FASTA 파일로 제공되며, 다음과 같이 보입니다.
비전문가의 눈에는 이 시퀀스 데이터가 단일 문자 아미노산 코드로 이루어진 빽빽한 문자열이어서 해석하기가 거의 불가능합니다. 하지만 이 파이프라인이 끝나면 연구원들은 "분류 신뢰도가 높은 인간의 막 단백질 중 연구가 덜 된 것을 보여줘" 와 같이 자연어로 이 동일한 데이터를 쿼리하여 실행 가능한 인사이트를 얻을 수 있습니다.
Lakeflow Declarative 파이프라인을 사용하여 이 데이터를 점진적으로 정제하는 메달리온 아키텍처 를 구축합니다.
결과: Unity Catalog에 있는 정제되고 관리되는 단백질 데이터로, 다운스트림 ML 및 분석에 사용할 수 있습니다. 무엇보다도, 이 단계를 넘어 아래에 강조 표시된 다른 단계까지 확장되는 데이터 리니지는 과학적 재현성에 엄청난 가치를 제공합니다.
신약 개발에 있어서 모든 단백질이 동등하게 생성되는 것은 아닙니다. 세포막에 내장된 막 수송 단백질은 세포 안팎의 물질 출입을 제어하므로 특히 중요한 약물 표적입니다.
막 단백질 분류를 위해 특별히 미세 조정된 Rostlab의 BERT 기반 단백질 언어 모델인 ProtBERT-BFD를 활용합니다. 이 모델은 아미노산 서열을 언어처럼 처리하여 잔기 간의 문맥적 관계를 학습하고 단백질 기능을 예측합니다.
모델은 분류(막 또는 수용성)를 신뢰도 점수와 함께 출력하며, 다운스트림 필터링 및 분석을 위해 이를 Unity Catalog에 다시 씁니다.
분류는 단백질이 무엇 인지 알려줍니다. 하지만 연구자들은 그것이 왜 중요한지, 즉 최신 연구는 무엇인지 알아야 합니다. 연구의 공백은 어디에 있나요? 이것은 충분히 연구되지 않은 약물 표적인가요?
여기서 LLM을 도입합니다. Databricks의 Foundational Model API와 External Model 엔드포인트를 모두 활용하여 연구 컨텍스트로 단백질 기록을 보강하는 등록된 AI Functions를 생성합니다.
Genie Space가 활성화된 AI/BI 대시보드에 모든 것을 통합했습니다.
이제 연구원은 다음을 수행할 수 있습니다.
대시보드는 Unity Catalog의 동일한 거버넌스 테이블을 쿼리하며, AI Functions는 주문형(또는 배치 처리) 보강을 제공합니다.
이 솔루션이 매력적인 이유는 어느 한 구성 요소 때문이 아니라, 모든 것이 하나의 플랫폼에서 실행된다는 점입니다.
| 역량 | Databricks 기능 |
|---|---|
| 데이터 수집 및 ETL | Lakeflow 선언적 파이프라인 |
| 데이터 거버넌스 | Unity Catalog |
| ML 추론 | GPU 컴퓨팅 |
| LLM 통합 | FMAPI + 외부 모델 + AI 함수 |
| 분석 | Databricks SQL |
| 탐색 | AI/BI 대시보드 + AI/BI Genie Space |
중요한 것은 시스템 간 데이터 이동이 없다는 점입니다. 별도의 MLOps 인프라가 필요 없습니다. 분리된 BI 도구가 필요 없습니다. 파이프라인에 들어가는 단백질 서열은 변환, 분류, 강화를 거쳐 자연어로 쿼리할 수 있게 되며, 이 모든 과정이 동일한 관리형 환경 내에서 이루어집니다.
전체 솔루션 가속기는 GitHub에서 사용할 수 있습니다:
github.com/databricks-industry-solutions/ai-driven-drug-discovery
이 가속기는 무엇이 가능한지를 보여줍니다. 프로덕션 환경에서는 다음과 같이 확장할 수 있습니다:
기반이 마련되어 있습니다. 플랫폼은 통합되어 있습니다. 유일한 한계는 여러분이 가속화하고자 하는 과학뿐입니다. 지금 시작해 보세요!
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)