주요 컨텐츠로 이동
의료 및 생명 공학

Genesis Workbench: Databricks와 NVIDIA 기반의 생명과학 분야 산업용 AI 청사진

NVIDIA 가속 컴퓨팅과 생물학을 위한 NVIDIA BioNeMo 오픈 모델을 하나의 엔드투엔드 신약 개발 플랫폼으로 결합하여, 자체 Databricks 환경 내에서 완전히 실행되는 개방형 거버넌스 기반 생명 과학 워크벤치

작성자: Mark Lee , 스리짓 네어

  • Genesis Workbench는 BioNeMo 및 Parabricks를 포함한 NVIDIA의 가속 컴퓨팅 도구를 단일 보안 환경에 통합하여 엔드투엔드 신약 개발을 지원하는 개방형 모듈식 Databricks 블루프린트입니다.
  • 이 플랫폼은 Unity Catalog 거버넌스를 통해 엄격한 IP 보안을 유지하는 동시에, 실험실 과학자들이 유전체학 및 분자 설계 작업을 수행할 수 있도록 노코드(no-code) 포인트 앤 클릭 인터페이스를 제공하여 복잡한 R&D를 단순화합니다.
  • 데이터를 중앙 집중화하고 외부 API 종속성을 제거함으로써, 이 워크벤치는 독점 데이터를 통제되고 거버넌스가 적용되는 경계 내에 유지하면서 초기 가설부터 최종 치료제 후보 물질 선정에 이르기까지 전체 연구 파이프라인을 효율화합니다.

데이터가 있는 곳에서 바로 시작하는 GPU 가속 신약 개발

생명과학 분야의 리더들에게는 거버넌스가 적용된 자체 데이터에서 직접 구축된, 도메인에 특화되고 프로덕션 환경에 바로 적용 가능한 AI가 필요합니다. Databricks와 NVIDIA는 협력을 통해 이러한 변화를 이끌어내고 있습니다. Unity Catalog 거버넌스, MLflow, Model Serving, 서버리스 GPU 컴퓨팅을 제공하는 Databricks와, NVIDIA BioNeMo Agent Toolkit( NVIDIA CUDA-X 라이브러리, Parabricks Proteina-Complexa와 같이 계속 확장 중인 생물학 및 화학 모델 카탈로그 포함)을 결합함으로써, 고객은 민감한 데이터를 외부 API로 전송할 필요 없이 데이터가 이미 존재하는 곳에서 특화된 AI를 실행할 수 있습니다.

본 블로그 글에서는 이러한 결합을 가장 까다로운 영역 중 하나인 생명과학 R&D 및 신약 개발에 적용한 사례를 집중적으로 다룹니다. 이 분야는 유전체학, 전사체학, 구조생물학, 화학 등 공통된 툴체인을 공유하기 어려운 여러 학문에 걸쳐 있으며, 대부분 비정형적이고 민감한 데이터를 다루기 때문에 수년의 시간과 수십억 달러의 투자가 필요합니다. Genesis Workbench는 이러한 노력이 실제로 어떻게 구현되는지 보여주는 결과물입니다.

Genesis Workbench란 무엇인가요?

Genesis Workbench는 Databricks 기반 생명과학 애플리케이션을 위한 오픈 블루프린트(청사진)로, 컴퓨터 기반 신약 개발의 주요 단계를 하나의 플랫폼, 하나의 UI, 하나의 거버넌스 모델 아래 통합하는 모듈형 워크벤치입니다. 각 과학 도메인은 독립적으로 배포 가능한 모듈로 구성됩니다:

  • 유전체학
  • 단일 세포
  • 대분자
  • 소분자
  • NVIDIA BioNeMo 모델 미세조정

이 플랫폼은 일반적인 도구 상자를 유기적으로 연결된 과학 연구용 워크벤치로 탈바꿈시킵니다. 무엇보다도 전체 환경을 단 하나의 스크립트로 간편하게 배포할 수 있습니다. Databricks Apps 기반의 클릭형 UI를 사용하여, 실험실의 연구원들은 코드를 작성하지 않고도 전체 신약 개발 워크플로우를 진행할 수 있습니다. 기반 아키텍처는 Unity Catalog에서 관리되고 MLflow를 통해 추적되며 GPU 엔드포인트에서 서빙되는 오픈소스 모델을 활용합니다. Databricks AI Search를 통해 공개 데이터셋과 자체 데이터셋을 모두 중앙 집중화함으로써 외부 API에 대한 의존성을 완전히 제거했습니다. 결과적으로 이러한 원활한 구성을 통해 프로세스의 모든 단계가 연결되어, 유전체학 분석 결과가 단일 세포 검증, 표적 구조 예측, 후보 물질 도킹, ADMET 및 순위 평가 단계로 자연스럽게 이어집니다.

Genesis Workbench가 생명과학 R&D를 가속화하는 방법

신약 개발의 모든 단계를 Databricks 네이티브 및 NVIDIA 가속 플랫폼 하나로 통합함으로써, Genesis Workbench는 그동안 생명과학 R&D 분야에서 AI 도입을 가로막았던 네 가지 핵심 문제를 직접 해결합니다:

  • AI 지원 워크플로우 생성. 워크벤치를 선언적으로 사용해 보세요. 원하는 과학적 연구 내용을 설명하기만 하면 복잡한 연결이나 상용구 코드 없이 바로 실행 가능한 파이프라인을 얻을 수 있습니다. 이를 통해 진입 장벽이 "이것을 어떻게 구축해야 하는지 아는 것"에서 "내가 무엇을 원하는지 아는 것"으로 낮아져, 더 많은 과학자들이 아이디어를 실험으로 전환하고 더 빠르게 혁신할 수 있습니다. Vortex는 이를 가능하게 하는 시각적 캔버스입니다.
  • MCP 지원. Genesis Workbench는 더 넓은 AI 생태계의 핵심 동력이 됩니다. 워크벤치의 모델과 워크플로우는 모든 에이전트나 MCP 클라이언트가 호출할 수 있는 도구가 되므로, 플랫폼이 고립되지 않고 다양한 어시스턴트와 파이프라인에 강력한 성능을 제공합니다. 함께 제공되는 Model Context Protocol (MCP) 서버를 통해 Databricks AI Playground, Claude, Cursor 또는 자체 에이전트에 워크벤치를 노출할 수 있으며, 코어와 함께 자동으로 배포됩니다.
  • 지식재산권(IP) 리스크 및 보안. 서열, 화합물 라이브러리, 분석 결과 및 환자 데이터는 조직에서 가장 엄격하게 규제되는 자산에 속합니다. 모델과 데이터는 Unity Catalog로 한 번만 다운로드되고, 추론은 자체 워크스페이스 내의 Model Serving 엔드포인트에서 실행되며, 런타임 시 외부 API 의존성이 없습니다. 따라서 귀사의 IP가 거버넌스 경계를 벗어나지 않습니다.
  • 끊임없이 변화하는 모델 트렌드. 바이오 AI 분야는 빠르게 변화합니다. Genesis Workbench의 모듈형 아키텍처는 모든 모델을 동일한 레지스트리 및 서빙 기반 내에서 독립적으로 배포 가능한 하위 모듈로 취급합니다. 따라서 GenMol, Proteina-Complexa 또는 더 새로운 모델을 도입하는 과정이 코드를 새로 작성할 필요 없이 단순한 배포 단계에 불과합니다.
  • 미세조정. 레이크하우스 내에서 철저하게 거버넌스가 적용된 자체 데이터셋으로 오픈소스 모델을 미세조정하여, 기존 사내 지식을 쉽게 활용하고 더 빠른 아이디어 구상 및 후보 물질 발굴을 수행할 수 있습니다.
  • 복잡한 학제 간 연결 작업. 모든 모듈이 하나의 플랫폼, 거버넌스 모델, 작업/서빙/MLflow 기반을 공유하기 때문에, 시스템 간에 불안정하게 복사하여 붙여넣는 대신 앱 내 핸드오프(유전자→서열 분석 포함)를 통해 각 학문 분야가 네이티브하게 연결됩니다. 워크벤치 자체가 곧 통합 레이어 역할을 합니다.

비전산 분야 과학자들의 참여 유도. 대화형 3D 뷰어와 AI가 생성한 쉬운 언어의 결과 해석을 제공하는 클릭형 React UI를 통해, 생물학자는 코드를 작성하지 않고도 변이를 분석하고, 녹아웃을 시뮬레이션하며, 바인더를 설계하고, 후보 물질의 순위를 매길 수 있습니다. 동시에 컴퓨터 과학 동료들은 파이프라인의 모든 단계에서 NVIDIA를 통해 기본 작업, 모델 및 아티팩트에 완전히 액세스할 수 있습니다.

거의 모든 단계에서 가장 까다로운 작업은 NVIDIA 가속 컴퓨팅 및 모델을 통해 처리됩니다:

개발 단계

NVIDIA 기술

Genesis Workbench에서의 역할

유전체학

Parabricks

유전체학 워크플로우의 일부

GPU 가속 기반의 생식선 변이 분석(germline variant calling) 및 주석 달기(annotation) - 레이크하우스의 데이터에서 병원성 변이 탐색

단일 세포

RAPIDS-singlecell (scverse의 일부)

단일 세포 워크플로우의 일부

대규모 데이터셋에 대한 GPU 가속 기반 클러스터링, UMAP 및 차등 발현 분석 - 밤새 걸리던 배치 작업을 대화형 탐색으로 전환

소분자

GenMol (NV-GenMol-89M-v2)

가이드형 분자 설계 워크플로우의 일부

엄격한 제약 조건 하에서 보상 단계의 선택적 도킹을 포함하는 폐쇄형 생성→점수 평가→재시드 루프를 통해, 시드 스캐폴드로부터 합성 가능한 새로운 분자를 생성

대분자

Proteina-Complexa

효소 설계 워크플로우의 일부

플로우 매칭(Flow-matching) 단백질 바인더 설계 및 모티프 스캐폴딩(ProteinMPNN + ESMFold 활용) - 표적 구조에서 설계 및 순위가 지정된 바인더 후보 물질 도출

다양한 단계

BioNeMo Recipes

고객의 인프라에서 고객의 데이터를 사용해 BioNeMo 컨테이너에 사전 패키징된 모델로 미세조정 및 추론을 실행

Genesis Workbench의 미래

앞으로 당사는 과학적 발견을 위해 워크벤치를 더욱 접근하기 쉽고 강력하게 만드는 데 집중할 계획입니다. 향후 로드맵은 다음과 같습니다:

  • 자동화된 워크플로 생성: 복잡한 과학적 워크플로를 생성하는 AI 기반 자동화를 도입하여 새로운 모델과 다양한 데이터 소스를 원활하게 통합할 수 있도록 지원합니다.
  • NVIDIA AI Skills 통합: NVIDIA BioNeMo Skills를 통합하고 있으며, BioNeMo Agent Toolkit이 플랫폼 고유의 지능과 기능을 어떻게 향상시킬 수 있는지 보여줍니다. 추가 기능은 준비되는 대로 계속 통합될 예정입니다.
  • MCP 서비스: Genesis Workbench가 다운스트림 소비 애플리케이션에 고품질 데이터와 인사이트를 쉽게 제공할 수 있도록 MCP(Model Context Protocol) 서비스를 추가할 계획입니다.

질병 연구부터 후보 물질 발굴까지, 하나의 거버넌스 플랫폼에서

Genesis Workbench는 과학자들이 데이터의 외부 유출 없이 환경 내에서 가설 수립부터 최종 치료제 후보 선정에 이르기까지 신약 개발의 전 과정을 안전하게 추진할 수 있도록 지원합니다. Parabricks, CUDA-X Data Science, Proteina-Complexa, GenMol, BioNeMo Agent Toolkit과 같은 GPU 가속 도구를 Unity Catalog 거버넌스 하에 통합함으로써 실험실 과학자들을 위해 특별히 설계된 직관적인 UI를 제공합니다. 이 강력한 인실리코(in-silico) 파이프라인은 성공 확률이 가장 높은 표적만 실제 실험실(wet lab) 단계로 넘어가도록 보장하여 낭비되는 시간과 리소스를 획기적으로 줄여줍니다. 이는 산업용 AI의 약속을 구체화한 것으로, 특화되고 안전한 AI를 데이터에 직접 적용할 수 있게 합니다.

신약 개발 속도를 높일 준비가 되셨나요?

지금 바로 GitHub 리포지토리에서 Genesis Workbench를 배포해 보세요. 배포 및 수정을 도울 수 있는 Claude Code 기술도 제공합니다. 기여는 언제나 환영하므로, 가능하시다면 프로젝트에 자유롭게 기여해 주세요! 이미 Databricks 고객이시며 라이브 데모에 관심이 있으시다면 Databricks 어카운트 팀에 문의해 주시기 바랍니다.

Genesis Workbench는 오픈 Databricks Industry Solutions 블루프린트입니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.