제너레이티브 AI는 다양한 생물학적 데이터세트에서 학습된 기본 모델을 활용하여 신약 개발, 예측 모델링, 개인 맞춤형 의학 분야의 고급 애플리케이션을 지원함으로써 생명공학 R&D를 혁신하고 있습니다. 그러나 해당 분야의 과학자들은 종종 상당한 기술 및 관리 장벽에 직면하며, 이로 인해 핵심 연구 활동에 지장을 받을 수 있습니다. 여기에는 GPU 환경 구성, 복잡한 워크플로 관리, 적절한 액세스 제어 보장 등이 포함됩니다. Genesis Workbench는 Databricks Platform에서 생물학용 파운데이션 모델을 사용하여 생명 과학 애플리케이션을 개발하기 위한 청사진을 제공함으로써 이러한 과제를 해결하기 위한 노력입니다.
생명 과학은 방대한 게놈 및 다중 오믹스 데이터세트와 인공지능(AI) 및 machine learning(ML)의 발전이 융합되면서 근본적 인 변환을 경험하고 있습니다. 처음에는 전문적이었던 AI 도구는 단백질 구조 예측, 단백질 언어 모델, 고급 생성 모델의 혁신으로 입증된 정교하고 일반화된 기초 모델로 빠르게 발전했습니다. 방대한 생물학적 서열 및 구조 데이터로 학습된 이러한 기반 모델은 랩 인 더 루프 설계와 같은 프로세스를 통해 신약 개발을 가속화하고 과학자의 일상 업무 효율성을 개선하며 잠재적으로 새로운 설계를 촉진할 수 있도록 지원합니다. 이러한 가속화는 과학 문헌, 전자 건강 기록(EHR), 전자 실험실 노트북(ELN)에서 생물의학 지식을 정확하게 추출하고 합성하는 데 중요한 특수 대규모 언어 모델(LLM)을 통해 더욱 지원됩니다.
표적을 더 잘 찾거나 신약을 설계하는 기술 및 여기에 사용되는 데이터는 매우 엄격하게 보호되는 지적 재산(IP)입니다. 따라서 조직은 데이터와 모델 모두에 대해 개인과 그룹에 적절한 액세스 제어 권한을 부여할 수 있도록 해야 합니다. 모델 사용 감사, 비용 모니터링 등 추가적인 거버넌스 문제는 대규모 생물학적 데이터 세트에 대한 파운데이션 모델의 핵심 고려 사항입니다. 하지만 중요한 점은 이러한 액세스 제어 프로세스가 구현하기 너무 어렵거나 사용자에게 너무 불투명하여 조직 내 과학 커뮤니티의 실질적인 발전을 저해해서는 안 된다는 것입니다. 실제로 많은 조직이 이 균형점을 찾는 데 어려움을 겪습니다.

생물학이나 계산 생물학 분야에 전문 지식이 있음에도 불구하고, 매우 재능 있는 많은 과학자들이 최신 AI 기술의 특정 전문 분야와 관련된 작업 부담 때문에 고급 생물학적 모델을 설정하는 데 어려움을 겪습니다. 이러한 과제에는 대규모 모델을 효율적으로 훈련하는 데 필수적인 GPU 가속을 위한 CUDA 환경 구성과 같은 기술적 복잡성이 포함됩니다. 또한 과학자들은 데이터 처리, 모델 학습 및 MLOps를 자동화하고 효율적으로 확장하는 복잡한 워크플로를 만들고 관리해야 하는 경우가 많습니다. 이러한 작업에는 종종 전통적인 생물학적 훈련 이외의 기술이 필요합니다. 또한 데이터 엔지니어링은 개인정보 보호와 재현성을 유지하기 위해 데이터 거버넌스 정책을 규정 준수하면서 다양한 생물학적 데이터세트를 수집, 정리, 통합해야 하는 중요한 과제를 안고 있습니다. 이러한 비생물학적 요구는 핵심 과학 연구에서 귀중한 시간과 집중력을 빼앗아 생명과학 분야에서 생성 AI 모델을 적용할 때 발전과 혁신을 더디게 합니다. 이러한 격차를 해소하려면 학제 간 협업과 생물학 연구자들의 기술 장벽을 낮추는 도구에 대한 접근성 개선이 필요합니다.
데이터브릭스는 강력한 거버넌스, 직관적인 사용성, 필요한 모든 데이터 또는 AI 솔루션을 구축할 수 있는 포괄적인 기능을 결합한 통합 분석 플랫폼으로 주목받고 있습니다. 데이터 관리, 보안 및 규정 준수를 위한 중앙 집중식 도구를 통해 모든 기술 수준의 사용자가 쉽게 액세스하면서 데이터를 항상 보호할 수 있습니다. 원활한 협업 기능, 확장 가능한 처리 능력, 모든 데이터, 분석 및 AI 워크로드에 대한 지원으로 엄격한 제어와 단순성을 유지하면서 혁신하고자 하는 조직에 이상적인 기반이 됩니다. 크고 작은 조직 모두 Databricks에서 생물학 모델을 성공적으로 구축했으며, Merck의 TEDDY 기초 모델 제품군부터 Tahoe Therapeutics의 단일 세포 아틀라스까지 다양한 조직이 Databricks에서 생물학 모델을 구축했습니다.

Genesis Workbench 는 Databricks의 기능을 활용하여 생명 과학 애플리케이션을 개발하기 위한 청사진을 제공합니다. 자동화된 워크플로, GPU 클러스터링, 모델 서빙, MLflow와 같은 기능을 활용하여 AI 기반 생명 과학 연구를 가속화하는 작동 Template을 제공합니다. 사전 패키지된 생물학적 모델과 맞춤형 워크플로를 갖춘 직관적인 Databricks Apps 인터페이스를 특징으로 하여, 과학자들이 복잡한 설정 없이 빠르게 start할 수 있도록 지원합니다.
NVIDIA와 협력하여 디지털 생물학을 위한 생성형 AI 프레임워크인 BioNeMo가 고급 사전 훈련 모델에 쉽게 액세스할 수 있도록 통합되었습니다. BioNeMo 모델은 NVIDIA 하드웨어에 최적화되어 엔터프라이즈 워크로드에 높은 성능과 확장성을 제공합니다.

오픈 소스인 Genesis Workbench는 AI 엔지니어에게 확장 가능한 Template을 제공하여 비생물학적 워크로드를 줄이고, 생물학용 파운데이션 AI 모델을 사용 및 결합하여 신속한 혁신을 촉진합니다. 유니티는 제네시스 워크벤치를 시작점으로 다양한 모델을 제공하며, 이러한 모델은 앱을 통해 벤치 과학자와 파이프라인을 구축하는 고급 계산 사용자 모두 사용할 수 있습니다. 중요한 것은 APIs에서 모델을 제공함으로써 복잡한 모델 종속성과 GPU 요구 사항을 추상화할 수 있다는 점입니다. 이를 통해 사용자는 일반적 으로 사용되지만 매우 복잡한 도구를 단일 파이프라인으로 묶을 수 있습니다.
Genesis workbench는 활발하게 개발 중인 Databricks 솔루션 Accelerator이며, 기능 세트가 계속해서 성장할 것으로 기대합니다.
이 애플리케이션은 Databricks 플랫폼을 기반으로 구축되었으며, 다음과 같은 플랫폼 기능을 사용합니다.

아미노산 서열로부터 단백질의 3차원 구조를 계산적으로 예측하는 능력은 오랫동안 계산적, 이론적으로 해결해야 할 문제였습니다. CASP 경진대회는 연구 커뮤니티의 모델링 역량을 강화하기 위해 최신 기술을 서로 테스트하는 장이 되어 왔습니다. 딥마인드는 CASP 대회에서 초기 알파폴드 모델(Senior 외, 2020, Nature)과 이후 알파폴드2(Jumper 외, 2021, Nature)를 발표하며 구조 예측 성능을 크게 향상시킬 수 있었습니다. 이를 위해 이전에 측정한 구조로부터 학습하고 대규모 염기서열 데이터베이스의 정보를 통합하는 AI 기술을 활용했습니다. 단백질 멀티머를 포함한 많은 구조를 실험에 가까운 정확도로 예측할 수 있는 능력은 신약 개발 접근 방식에 혁신을 가져왔습니다.
이제 단백질 구조 관련 작업을 위한 모델 동물원이 생겼습니다. 알파폴드-3(Abramsom 외 2024 Nature)(폐쇄형 가중치), 볼츠-1(Wohlend 2024, BioRxiv), 차이-1(차이 발견팀 2024, BioRxiv) 같은 모델은 이제 단백질을 넘어 단백질, DNA, RNA, 저분자 등 보다 진보된 구조로 확장되고 있습니다. Openfold3(Openfold3 팀)와 같은 다른 오픈 모델들이 최근 유사한 기능으로 출시되었으며, 이러한 모델 군은 계속해서 성장할 것으로 예상됩니다. 또한 생성형 모델로 단백질을 생성하는 기능이 빠르게 발전하고 있으며, RFdiffusion(Watson et al. 2023, Nature) 및 ProteinMPNN(Dauparas et al. 2022, Science)과 같은 도구가 이 분야에서 자주 사용됩니다(예: Bielska et al. 2025, front.immunol.), 와 같은 새로운 모델과 BoltzGen(Stark 외. 프리프린트, 레포)과 같은 새로운 모델은 빠르게 진화하는 전산 약물 발견 및 설계를 위한 툴킷을 제공합니다.

알파폴드2의 최신 안정 버전(v2.3.2)이 포함되어 있습니다(Jumper 외, 2021, Nature). 알파폴드 프로세스는 광범위한 기능 계산으로 인해 실행하는 데 시간이 걸리므로, Genesis Workbench에서는 Databricks에서 알파폴드를 워크플로 Job으로 프로비저닝하는 방법을 보여드립니다. 이 job은 CPU가 담당하는 작업(MSA, 특징 추출)과 GPU가 담당하는 폴딩 작업의 두 가지 작업으로 구성됩니다. 이를 통해 각 작업을 적절한 compute 유형에서 실행할 수 있습니다. 이 job은 HPC와 마찬가지로 대기열 시스템을 활용하므로 다른 시퀀스가 대기열에서 대기하는 동안 여러 시퀀스를 동시에 접을 수 있습니다.

ESMFold(Lin et al. 2023, Science)는 단일 서열에서 단백질 구조를 추론하기 위해 강력한 ESM 단백질 언어 모델과 구조적 헤드를 활용하는 빠르고 비용 효율적인 단백질 구조 예측 딥 러닝 모델입니다. 정확도는 다중 서열 정렬을 사용하는 모델보다 낮지만, ESMFold는 많은 실제 애플리케이션에 사용하기에 충분합니다. Genesis Workbench에서는 MLflow 모델로 래핑된 ESMfold를 배포하고 Unity Catalog에 등록합니다. Databricks에서는 비용 절감을 위한 scale-to-zero 운영을 지원하는 등 Unity Catalog에 등록된 MLflow 모델을 API로 매우 간단하게 제공할 수 있습니다. ESMFold가 API로 제공되므로 연구원들은 새로 운 단백질 구조를 신속하게 예측하고, 이를 계산 파이프라인에 쉽게 통합하며, Genesis Workbench에 표시된 패턴을 사용하여 추가 분석을 위해 결과를 시각화하거나 download할 수 있습니다.
Boltz-1(Wohlend 2024, BioRxiv)은 생체 분자 구조 예측을 위한 완전한 오픈 소스 코드 및 가중치(MIT) 모델을 제공합니다. ESMFold와 마찬가지로 Boltz-1을 Unity Catalog에 모델로 등록하고 모델을 제공하는 endpoint에서 서비스합니다. Boltz-1에는 선택 사항인 MSA 입력이 있으며, 이를 생략하거나 미리 계산된 MSA를 사용하거나 mmseqs2(Steinegger, Sölding 2017 Nat.Biotech) 서버 주소를 사용할 수 있습니다. Boltz-1의 다양한 옵션을 보장하기 위해 필수 Boltz-1 모델 구성 요소를 Python 패키지로 래핑하고,alphafold2(Jumper 외, 2021, Nature) 라이브러리의 JackHMMer(Johnson 외, 2010 생물정보학) 옵션을 함께 제공합니다. 이를 통해 사용자는 JackHMMer MSA를 선택할 수 있습니다. default mmseqs2 서버 주소는 공개 URL이라 대부분의 보안 정책을 위반하므로 이는 일부 사용자에게 유리할 수 있습니다.
Boltz-1 기능 및 MSA 단계는 mlflow 추적 기능으로 래핑됩니다. 추적을 통해 예를 들어 MSA 단계에 대한 추론의 모든 단계와 각 단 계의 입력 및 출력을 쉽게 시각화할 수 있습니다. 이 기능은 노트북에서 모델을 사용할 때 특히 유용할 수 있는데, 저장된 파일을 별도로 탐색할 필요 없이 모델에서 어떤 일이 발생했는지 정확히 확인하고 MSA의 문제를 빠르게 파악할 수 있기 때문입니다.
전산 단백질 설계는 효소 활성과 치료 효과 모두를 위해 효과적인 단백질을 설계하는 방법을 바꿀 수 있는 큰 잠재력을 가진 빠르게 진화하는 분야입니다. RFdiffusion(Watson et al. 2023, Nature) 및 ProteinMPNN(Dauparas et al. 2022, Science)은 예를 들어 계산 항체 설계(Bielska et al. 2025, front.immunol.)와 같은 단백질 설계에 함께 자주 사용됩니다. 그리고 최근에는 신규 항체 설계에도 활용되고 있습니다(Bennett 외, 2025, Nature).
Genesis Workbench에서는 RFDiffusion 및 ProteinMPNN을 제공하는 방법을 시연합니다. 서비스 모델에서 복잡한 종속성을 추상화하면 이러한 모델을 계산 파이프라인으로 쉽게 연결할 수 있는 방법을 보여드립니다. 특히 ESMFold, RFdiffusion, ProteinMPNN을 결합하여 Genesis Workbench 애플리케이션을 호스팅하는 소형 CPU 전용 머신에서 전체 파이프라인을 호출합니다. 더 이상 각 모델의 모든 종속성을 한 곳에 유지 관리하거나 충돌하는 CUDA 버전에 대해 걱정할 필요가 없습니다. 또한 앱에서 출력물을 원래 예측된 구조와 구조적으로 정렬하여 원본 및 설계된 서열을 Mol* 뷰어에 표시합니다.
이는 컴퓨팅 사용자가 Genesis Workbench 내의 구성 요소를 기반으로 조직 또는 연구팀의 목표에 맞게 조정된 프로세스를 생성하기 위해 새로운 툴링을 구축하는 방법을 보여줍니다.
단일 세포 전사체학은 다양한 코호트의 세포 집단을 이해하고, 틈새 세포 유형을 식별하며, 세포 궤적을 밝히는 등 다양한 용도로 활용되는 강력한 기술입니다. 이 분야에서 사용 가능한 데이터의 규모는 샘플 처리의 증가뿐만 아니라 기술의 발전으로 인해 빠르게 증가하고 있습니다. 이는 이러한 규모의 데이터 레이블링 및 처리에 대한 과제를 제시하며 다음과 같은 질문을 던집니다.
저희는 이러한 과제에 대한 솔루션을 제공하고, 이러한 문제의 변형에 이 접근법들을 적용하기 위한 청사진을 구축하는 것을 목표로 합니다.
제네시스 워크벤치에서는 단일 셀 처리를 자동화하고 결과를 시각화할 수 있는 툴을 제공하며, MLflow Experiment에서 추적된 모든 결과를 통해 사용자가 데이터를 제어하고 동료와 공유하는 방법을 유지할 수 있습니다. 여기에는 최적의 RAM을 선택하는 CPU 파이프라인과 GPU 가 속 워크플로가 포함됩니다. 또한 처리된 데이터에 대한 반응성이 뛰어나고 지연 시간이 짧은 데이터 시각화 기능도 포함되어 있습니다. 또한 단일 세포 발현의 기초 모델도 통합합니다: 아틀라스 수준의 주석, 임베딩 및 검색을 위한 SCimilarity (Heimberg 외, 2024, Nature) 및 scGPT (Cui 외, 2024, Nature Methods)를 통합합니다.

Genesis Workbench에서는 표준 scanpy (Wolf et al. 2018 Genome Biol) 실행을 위한 워크플로 job을 구성합니다. 이 작업은 최소 RAM 크기를 자동으로 선택하여 사용자 부담과 비용을 동시에 줄입니다. 이 작업은 선택된 parameter뿐만 아니라 다양한 메트릭, 출력, 그림을 단일 MLflow 실행에 Log합니다. 이를 통해 실행 중인 파이프라인에 관한 모든 세부 정보를 자동으로 기록하는 최신 Experiment 추적 절차를 사용할 수 있습니다. 이 Scanpy job 외에도 RAPIDS-singlecell(Dicks et al., 2022, repo, doi) job도 프로비저닝합니다. 이 패키지는 scanpy와 매우 유사하게 작동하고 동일한 parameter 옵션을 갖지만 GPU로 가속화됩니다. 이를 통해 더 빠른 처리량을 확보할 수 있으며, 이는 특정 프로젝트에 필수적입니다.
제네시스 워크벤치 애플리케이션에서는 사용자가 다양한 parameter로 start를 시작하고 애플리케이션 내에서 출력을 확인할 수 있는 간단한 인터페이스를 통해 이러한 파이프라인에 쉽게 액세스할 수 있도록 지원합니다. 지능형 데이터 큐레이션을 수행하여 앱 내에서 결과를 신속하게 분석할 수 있도록 지원하며, 하나의 컴팩트한 애플리케이션 compute에서 여러 사용자를 지원합니다. 그러면 QC 지표, 클러스터, 마커 유전자 발현과 같은 세부 정보를 앱에서 모두 확인할 수 있습니다. 이 프로세싱은 기초 모델과 함께 데이터를 scRNA에 사용하기 전에 중요한 단계가 될 수 있습니다.


