액체 생검은 혈액 내 암 바이오마커를 분석하여 비침습적 암 검진 및 모니터링을 가능하게 하지만, 그 신호는 희소하고 노이즈가 많을 수 있습니다. Exai Bio는 새로운 작은 RNA 바이오마커를 사용하여 AI 기반 액체 생검 분야를 개척했습니다. 최근 연구에서 무세포 RNA를 위한 두 가지 새로운 생성형 AI 인 Exai-1과 Orion은 신호 노이즈 제거 및 조기 암 진단에서 획기적인 발전을 이루었습니다. 이러한 발전은 Databricks의 레이크하우스 아키텍처와 클라우드 AI 인프라 덕분에 가능했습 니다. Databricks는 대규모 유전체 데이터세트를 통합하고 관리형 ML 도구(MLflow, 워크플로, 확장 가능한 클러스터)를 제공함으로써 Exai의 연구자들이 수천 개의 환자 샘플에 대해 대규모 멀티모달 모델을 훈련할 수 있도록 지원합니다. 이 공동의 노력을 통해 우리는 Exai Bio의 기술적 혁신을 강조하고 Databricks의 레이크하우스 및 MLOps 생태계가 어떻게 최첨단 생물 의학 AI를 가속하는지 보여줍니다.
액체생검을 위한 다중모달 파운데이션 모델
Exai Bio의 최신 연구는 대규모 생성 모델 을 액체생검 데이터에 맞게 소개합니다. 이 모델은 서열 정보, 분자 풍부도, 풍부한 메타데이터를 통합하여 암 관련 RNA의 고품질 표현을 학습합니다.
- Exai-1(cfRNA 파운데이션 모델): RNA 서열 임베딩과 세포 유리 RNA(cfRNA) 존재비 프로필을 통합하는 트랜스포머 기반 변이형 오토인코더입니다. Exai-1은 13,014개의 혈액 샘플에서 추출한 3,060억 개 이상의 서열 토큰이라는 방대한 데이터세트로 사전 훈련 되어 cfRNA 발현의 생물학적으로 의미 있는 잠재 구조를 학습합니다. Exai-1은 서열(RNA-FM 언어 모델의 임베딩을 통해)과 발현 데이터를 모두 활용하여 "합성 cfRNA 프로필을 생성함으로써 신호 충실도를 높이고, 기술적 노이즈를 줄이며, 질병 탐지를 개선"합니다. 실제로 Exai-1은 희소한 cfRNA 측정값의 노이즈를 제거 하고 데이터세트를 증강 할 수도 있습니다. Exai-1의 재구성된 프로필로 훈련된 분류기는 가공되지 않은 데이터로 훈련된 분류기보다 일관되게 뛰어난 성능을 보입니다. 이 생성적 전이 학습 접 근 방식은 모든 cfRNA 기반 진단 작업에 효과적인 파운데이션 모델 을 만듭니다. 예를 들어, 동일한 사전 훈련된 임베딩을 사용하여 다른 암이나 새로운 바이오마커를 탐지하는 것입니다.
- Orion(OncRNA 생성형 분류기): 종양에서 분비되는 작은 RNA인 순환 고아 비번역 RNA(oncRNA)를 위한 특화된 변이형 오토인코더(VAE)입니다. Orion은 트윈 VAE 아키텍처를 가지고 있습니다. 암 관련 oncRNA의 카운트 벡터 와 대조군 RNA(예: 내인성 하우스키핑 RNA) 벡터를 입력으로 받습니다. 각 입력은 별도의 인코더에 공급되며, 그 출력은 견고한 분류기를 훈련하고 기저 oncRNA 분포를 재구성하는 것을 가능하게 합니다. 중요한 것은 Orion의 훈련에는 대조 및 분류 손실이 포함된다는 점입니다. 삼중항 마진 손실은 동일한 표현형(암 vs. 대조군)을 가진 샘플을 모으고 다른 표현형은 밀어내어 배치 효과와 기술적 변동을 제거합니다. 학습된 임베딩은 다운스트림 분류기에서 암 존재 여부를 예측하는 데 사용됩니다. 1,050명의 폐암 환자 및 대조군 코호트에서 Orion은 모든 단계의 비소세포폐암(NSCLC) 탐지에 대해 87% 특이도에서 94% 민감도 를 달성했으며, 이는 홀드아웃 데이터에서 표준 방법보다 약 30% 뛰어난 성능입니다. 이 생성형, 준지도 모델은 cfRNA 신호의 노이즈를 자동으로 제거하고 간결한 암 특이적 핑거프린트를 생성하여 이전 분석법보다 더 정확한 조기 진단을 가능하게 합니다.

그림 1: 액체생검을 위한 Exai Bio의 Orion 모델 아키텍처. 이미지 출처: Karimzadeh 외, Nat Commun.
이러한 모델들은 함께 액체생검을 위한 확장 가능한 AI 프레임워크 를 형성합니다. Exai-1은 실제와 같은 RNA 프로필을 생성하고 다운스트림 분류기를 강화할 수 있는 범용 cfRNA '언어 모델'을 제공합니다. Orion은 이 접근 방식을 폐암 검진이라는 특정 문제에 맞게 미세 조정합니다. 두 경우 모두 모델은 다양한 조건에 걸쳐 일반화 됩니다. Exai-1은 교란 변수로부터 실제 생물학적 신호를 분리하여 '교차 생체 유체 번역 및 분석 호환성을 촉진'합니다. 그 결과 조기 암 진단 및 바이오마커 발견을 위해 미묘한 cfRNA 바이오마커 패턴을 마이닝할 수 있는 새로운 세대의 AI 도구가 탄생했습니다.
Databricks 데이터 인텔리전스 및 AI 플랫폼: 이를 가능하게 하는 인프라
이러한 AI 혁신은 Databricks의 통합 데이터 분석 플랫폼을 통해 이루어집니다. 주요 기능은 다음과 같습니다.
- 통합 레이크하우스(Delta) 스토리지: 모든 메타데이터(샘플 정보, 실험실 및 실험 데이터)를 Databricks Delta 테이블에 저장합니다. 이 단일 레이크하우스 는 데이터 사일로를 방지하고 실시간 분석을 가능하게 합니다. Databricks 헬스케어 솔루션에서 언급했듯이, 레이크하우스는 '환자, 연구, 운영 데이터를 대규모로 통합'하고 레거시 사일로를 제거하여 유전체 및 임상 데이터를 즉시 쿼리할 수 있 도록 합니다. 예를 들어, Exai의 13,000개 이상의 혈액 샘플(혈청 및 혈장)과 10,000개 이상의 이전 small-RNA-seq 데이터 세트는 모두 Delta 테이블에 등록되어 있으며, 모델 학습을 위해 신속하게 필터링하고 조인할 수 있습니다.
- 확장 가능한 컴퓨트 및 클러스터: Databricks의 클라우드 네이티브 클러스터를 통해 연구원들은 심층적인 DevOps 노력 없이 GPU 또는 고용량 메모리 인스턴스를 빠르게 가동 할 수 있습니다. Databricks 덕분에 저희는 신속하게 움직일 수 있습니다. 클러스터 관리는 직관적이며, 자동 종료 및 비용 대시보드와 같은 기능으로 예산을 통제할 수 있습니다. 이러한 온디맨드 확장을 통해 수백 개의 CPU 코어/GPU에서 Exai-1 및 Orion의 최적화와 훈련이 가능해졌습니다. Databricks Workflows(이전 Jobs)는 "컴퓨트"를 구성합니다. 연구원들은 복잡한 오케스트레이션 코드를 작성하지 않고도 정의된 종속성을 가진 다단계 ETL 및 훈련 파이프라인을 시작하고 작업을 병렬화할 수 있습니다.
- MLOps를 위한 MLflow: 모든 실험 실행(하이퍼파라미터, 데이터세트, 메트릭, 아티팩트)은 Databricks에 긴밀하게 통합된 MLflow에서 추적됩니다. Databricks는 추적 서버와 같은 모든 MLflow 환경 설정을 제공하며 별도의 설정 없이 사용할 수 있습니다. MLflow의 실험 추적 및 모델 레지스트리는 재현성과 협업을 보장합니다. 관리형 MLflow를 사용하면 수십 개 모델의 메트릭과 아티팩트를 로깅하여 절제 연구를 수행하고 모델 성능의 다양한 측면을 개선하는 기능을 최적화할 수 있습니다.
- 재현 가능한 환경: Databricks Container Services 및 Git 기반 Repos(CI/CD 포함)는 각 파이프라인의 소프트웨어 종속성을 고정합니다. 이는 Exai Bio의 연구 스택(맞춤형 생물정보학 도구 포함)에 매우 중요했으며, 모든 팀원이 동일한 환경에서 모델을 실행하도록 보장했습니다. 간단히 말해 Databricks는 Spark를 사용한 데이터 수집, MLflow를 사용한 Experiment 추적, Jobs/워크플로를 사용한 오케스트레이션, 자동 확장을 사용한 탄력적 컴퓨트 등 턴키 MLOps 플랫폼을 제공합니다.
암 진단 및 바이오마커 발견에 미치는 영향
결합된 과학 및 엔지니어링적 발전은 다음과 같은 중대한 의미를 갖습니다.
- 향상된 조기 진단 – AI 모델은 혈액 RNA 분자를 배경으로 cfRNA 암 신호를 증폭하여 암을 조기에 진단할 수 있습니다. Exai-1의 노이즈 제거 기능은 소량의 혈액 샘플에서도 더 선명한 신호를 생성하며, Orion의 생성 임베딩은 초기 단계 폐암에 대해 높은 민감도(94%)를 달성합니다. 이러한 개선은 치료 가능한 단계에서 종양을 발견하는 더 신뢰할 수 있는 검진 테스트(예: 연간 혈액 검사)로 이어질 수 있습니다.
- 새로운 바이오마커 인사이트 – 이 모델은 원시 RNA 데이터로부터 학습하여 표적 패널의 편향을 줄입니다. 예를 들어, Orion은 TCGA 및 조직 데이터에서 수백 개의 새로운 종양유발 RNA(oncRNA)를 식별한 다음, 혈액에서의 중요성을 검증했습니다. Exai-1의 잠재 공간은 RNA 서열, 구조 및 풍부도 정보를 결합하여 이전에 간과되었던 바이오마커를 강조할 수 있습니다. 중요한 것은 전이 학습 패러다임을 통해 새로운 발견(예: 새로운 서열 토큰으로 교체)을 신속하게 통합하고 통합 플랫폼에서 미세 조정할 수 있다는 점입니다.
- 생성적 데이터 증강 – Exai-1은 디코더에서 샘플링하여 실제와 같은 cfRNA 프로필을 시뮬레이션 할 수 있습니다. Exai-1 재구성을 사용할 때 더 높은 AUC로 나타나듯이, 이 합성 데이터는 분류기 학습을 강화합니다. 실제로는 제한된 실제 샘플에도 불구하고 희귀한 암 시그니처를 더 견고하게 학습할 수 있음을 의미합니다. 즉, '희귀 암을 발견하려면... 파운데이션 모델과 상당한 양의 학습 데이터가 필요'하기 때문에 파운데이션 모델은 데이터 부족이라는 중요한 문제를 완화합니다.
- 확장 가능한 연구 협업 – Databricks를 기반으로 구축함으로써 Exai의 다분야팀(생물학자, 생물정보학자, 생물통계학자, ML 과학자, 데이터 엔지니어)은 원활하게 협업할 수 있습니다. Data scientists는 PyTorch와 Spark를 나란히 실행하고, 생물통계학자는 R로 코호트를 query하며, 생물학자는 새로 처리된 샘플을 log하고, 보고서/대시보드는 자동으로 새로 고쳐집니다. 이 빠른 피드백 루프를 통해 Exai 팀은 여러 암 유형에서 액체 생검 및 AI 시스템의 적용 사례를 선보일 수 있었으며, 그 결과 18개월 만에 7개의 컨퍼런스 논문을 발표했습니다. 이는 엔터프라이즈급 AI 인프라가 생명과학 R&D를 어떻게 가속하는지를 보여주는 대표적인 예입니다.
향후 전망
Exai Bio와 Databricks의 협력은 최첨단 AI 모델 과 최신 클라우드 아키텍처 가 어떻 게 함께 암 진단의 지평을 넓히는지 보여줍니다. Exai Bio의 파운데이션 및 생성형 AI 모델(Exai-1 및 Orion)은 딥 생성형 학습이 액체 생검에서 강력한 신호를 추출할 수 있음을 입증합니다. 이러한 발전의 기반에는 이기종 생물 의학 데이터를 통합하는 Databricks의 레이크하우스와 대규모 실험을 실용적이고 재현 가능하게 만드는 관리형 ML 도구(MLflow, 워크플로, 파이프라인)가 있습니다. 앞으로도 저희는 모델과 파이프라인을 계속해서 개선해 나갈 것입니다. Exai Bio와 Databricks는 함께 확장 가능하고 임상적으로 영향력 있는 AI 기반 정밀 종양학을 위한 기반을 마련하고 있습니다.
출처: Exai Bio 등, “A multi-modal cfRNA language model for liquid biopsy” (Nature Machine Intelligence, 2025); Exai Bio 등, Nature Commun. (2024) “Deep generative AI models analyzing circulating orphan non-coding RNAs…”; Databricks 설명서 및 블로그.
(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)