2026년 3월 25일

Tevogen Bio의 생명을 구하는 치료법 간소화 여정

데이터와 AI로 신약 개발 가속화

혁신: Tevogen Bio는 ExacTcell 플랫폼과 자체 PredicTcell AI 모델을 활용하여 전통적으로 느리고 30억 달러가 소요되는 신약 개발 프로세스를 현대화하고 자동화하고 있습니다.
과제: 수동 습식 실험실 테스트 및 멀티 테라바이트 데이터 사일로의 "병목 현상"을 극복하기 위해 Tevogen은 Microsoft 및 Databricks와 파트너십을 맺고 레이크하우스 아키텍처에 대규모의 관리되는 데이터 플랫폼을 구축했습니다.
결과: 160억 개의 데이터 포인트를 처리함으로써 Tevogen은 50일의 연구 주기를 24시간으로 압축하여 알파 모델에서 93-97%의 재현율을 달성하여 더 빠르고 저렴한 치료법을 제공했습니다.

신약 개발의 10년 과정 가속화

신약 개발은 30억 달러 이상이 소요되며 제품을 시장에 출시하기까지 10-12년의 시간이 걸립니다. 이는 특정 제품의 접근성 및 비용과 관련된 문제에 직접적으로 기여합니다.

Tevogen Bio는 이러한 문제를 해결하기 위해 단일 HLA 제한을 통해 특정 바이러스, 종양 또는 신경 질환에 대한 표적을 결정하는 특허받은 ExacTcell 플랫폼을 만들었습니다. 단일 바이러스 후보인 SARS-COV2에 대한 개념 증명 시험의 초기 표적 선택은 수동 방식으로 수행되었습니다. 단일 HLA 제한 제품은 인구의 대다수를 치료할 수 있지만 상당한 시간과 리소스가 필요했으며, 습식 실험실 과학을 통해 테스트하고 확인하는 데 18-24개월이 걸렸습니다.

더 빠르고 저렴하며 더 쉽게 접근할 수 있는 치료법을 제공하려는 Tevogen의 사명을 달성하기 위해 Tevogen.AI는 Microsoft 및 Databricks와 파트너십을 맺고 핵심 플랫폼의 과학적 이해를 최적화하는 동시에 추가 적응증을 위한 파이프라인을 간소화하고 가속화하는 것을 목표로 했습니다.

과제는 과학자와 연구자가 몇 달이 걸리던 프로세스를 며칠, 나아가 몇 시간 만에 변환할 수 있도록 다양한 질병에 걸친 단백질 서열 라이브러리를 수집하고 생성하는 것이었습니다.

또한 이 데이터 세트는 Tevogen Bio의 독점 과학 기술을 기반으로 하는 Tevogen.AI의 특허받은 기초 알고리즘 모델을 훈련하는 데 사용될 것입니다. Tevogen의 경영진은 기계 학습 방법을 사용하여 면역 활성 펩타이드를 예측하도록 알고리즘 모델을 훈련하기 위해 알려진 유전 단백질 데이터 세트를 큐레이션하는 과제도 제시했습니다.

병목 현상: 멀티 테라바이트 데이터 세트 정리

이 데이터 세트를 큐레이션하기 위해 팀은 알고리즘 훈련을 용이하게 하기 위해 관련 기능과 함께 멀티 테라바이트 규모의 데이터 세트를 조달하고 구성해야 하는 고유한 과제에 직면했습니다. 이는 두 가지 주요 문제를 야기했습니다.

다단계 정제 및 필터링을 통해 관련 정보를 신속하게 조달하고 구성하기 위한 데이터 파이프라인 생성,
직렬로 실행되도록 설계된 프로세스를 병렬로 변환.

이것이 Databricks가 중요한 파트너임이 입증된 부분입니다.

Databricks를 사용한 최신 데이터 레이크하우스 구축

현대화 노력의 기반으로 Databricks 플랫폼을 선택했습니다. Medallion Architecture 및 Unity Catalog의 강력한 기능을 활용하여 엄격한 거버넌스 및 세분화된 액세스 제어를 유지하면서 데이터를 브론즈, 실버 및 골드 계층에 신중하게 저장하기 위한 수많은 파이프라인을 구축했습니다.

분산 컴퓨팅의 강력한 기능과 더 깔끔한 구조를 활용하여 프로세스에 걸리는 시간을 50일에서 24시간으로 단축할 수 있었습니다. 메달리온 아키텍처는 다양한 기계 학습(ML) 모델 개발의 기초 역할도 했습니다.

전문 서비스 팀의 전문가들 덕분에 Vibhor Nigam과 Mohamad Abafoul에게 개인적으로 감사드리며, Tevogen.AI는 대규모로 처리하고 2,400만 개의 단백질로 구성된 데이터 세트를 축적할 수 있었으며, 이는 메달리온 아키텍처의 브론즈에서 실버 계층으로 160억 개의 데이터 포인트와 약 7억 개의 고유 펩타이드를 파생하기 위해 정제 및 정렬되었습니다. 또한 약 3,700만 개의 상호 참조된 전문가 기사를 큐레이션할 수 있었습니다.

데이터에서 AI로: PredicTcell 모델 훈련

생물정보학 분야에서 일해본 사람이라면 누구나 몇 달 안에 이 작업을 수행하는 것이 쉬운 일이 아니라는 것을 이해할 것입니다. 이 프로세스가 진행되는 동안 팀은 병렬로 작업하여 자동 훈련, 추론, 모니터링 및 보존을 위한 MLOps 프레임워크를 만들 수 있었습니다. 초기 참여 단계가 완료됨에 따라 팀은 전통적인 XGBoost 방법과 ESM 모델을 통해 훈련된 PredicTcell 모델의 알파 버전을 제공할 수 있었으며, 궁극적으로 93-97%의 재현율과 38-43%의 정확도를 달성했습니다.

또한 데이터 세트의 확장은 Tevogen의 과학 팀이 모델 훈련 주기에 대한 새로운 통찰력을 얻고 제공하여 각 반복을 통해 훈련 방법을 개선할 수 있도록 했습니다. Agent Bricks와 생화학적 속성을 결합한 RAG 통합을 사용하여 전문가 기사를 신속하게 평가하는 것과 같은 추가 기능을 훈련 세트에 계속 추가하고 있습니다.

앞으로 나아가기: 의학의 성배 잠금 해제

PredicTcell 모델의 베타 버전에 대한 훈련이 시작되고 AdapTcell 모델의 알파 버전에 대한 작업을 시작함에 따라 Tevogen.AI는 의학의 성배를 잠금 해제하는 열쇠인 점점 더 정확해지는 펩타이드-단백질 결합 친화도에 대한 최첨단 예측 모델을 만드는 데 독보적인 위치에 있습니다.

자체 모델을 통해 Tevogen.AI는 매우 높은 정확도로 새롭거나 그렇지 않은 모든 단백질에 대한 결합 펩타이드를 예측하는 궁극적인 목표를 달성할 수 있다고 확신합니다.

Tevogen의 CIO이자 Tevogen.AI의 책임자인 Mittul Mehta는 “확률적 워크플로에 결정론을 추가하는 것이 성공을 위한 열쇠입니다. 생체 내/생체 외 시행착오 과정을 균형 있게 조정하는 것은 모든 생명공학 회사가 신약 개발에 집중해야 하는 부분입니다.”라고 말했습니다.

“저는 Databricks와 Microsoft와의 관계에 매우 만족합니다. 각 파트너는 우리가 지속적으로 혁신하고 Tevogen의 목표인 대규모 환자 집단에게 저렴하고 접근 가능한 치료법을 제공하는 데 필요한 최고의 기능을 제공합니다. 신약 개발을 위한 AI 분야에서 혁신하기 위해 이 두 훌륭한 파트너와 계속 협력하기를 기대합니다.”

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)