2026년 4월 3일

AiChemy: MCP, 스킬 및 사용자 지정 데이터를 갖춘 차세대 에이전트, 신약 개발용

AiChemy는 Databricks에서 MCP, Skills, AI Search 및 Genie를 활용하는 멀티 에이전트 시스템을 통해 맞춤형 및 외부 데이터(OpenTargets, PubChem, PubMed)를 통합하여 신약 개발을 가속화합니다.

작성자: 옌 로 , Sean Zhang

Databricks에서 구조화 및 비구조화 데이터와 함께 모델 컨텍스트 프로토콜(MCP)을 통해 외부 지식 베이스(OpenTargets, PubChem, PubMed)를 통합하는 멀티 에이전트 시스템인 AiChemy 구축 가이드입니다.
해결 과제: 다양한 AI 에이전트 간의 자율 협업을 가능하게 하여 방대하고 이질적인 데이터 세트를 분석하고 추적 가능하며 증거 기반의 결과를 제공함으로써 학제 간 신약 개발 연구를 가속화합니다.
결과: 연구자들은 질병 표적을 식별하고, 약물 후보를 평가하고, 상세한 속성을 검색하고, 안전성 평가를 수행하여 보다 효율적인 신약 개발 및 선도 물질 생성을 할 수 있습니다.

다분야 연구 가속화를 위한 다중 에이전트 시스템

다분야 전문가 팀처럼 협업하는 다중 에이전트 AI 시스템을 상상해 보세요. 이 시스템은 방대한 데이터 세트를 자율적으로 분석하여 새로운 패턴과 가설을 발견합니다. 이제 Model Context Protocol(MCP)을 통해 이를 편리하게 구현할 수 있습니다. MCP는 다양한 데이터 소스와 도구를 쉽게 통합하기 위한 새로운 표준입니다. 지식 베이스부터 보고서 생성기까지 확장되는 MCP 서버 생태계는 무한한 기능을 제공합니다.

AiChemy의 기능

AiChemy를 소개합니다. 이 다중 에이전트 어시스턴트는 OpenTargets, PubChem, PubMed와 같은 외부 MCP 서버와 Databricks의 자체 화학 라이브러리를 결합하여 통합된 지식 베이스를 더 잘 분석하고 해석할 수 있도록 합니다. 또한, 연구, 규제 또는 비즈니스 요구에 맞춰 일관된 형식으로 작업별 보고서를 생성하기 위한 자세한 지침을 제공하는 Skills를 선택적으로 로드할 수 있습니다.

그림 1. AiChemy는 외부 MCP 서버인 PubChem, PubMed, OpenTargets와 Genie Space(DrugBank 구조화 데이터에 대한 텍스트-SQL) 및 AI Search(ZINC 분자 임베딩과 같은 비구조화 데이터용)의 Databricks 관리 MCP 서버로 구성된 다중 에이전트 슈퍼바이저입니다. Skills를 로드하여 작업 순서 및 보고서 형식과 스타일을 지정하여 일관된 출력을 보장할 수도 있습니다.

주요 기능에는 질병 표적 및 약물 후보 식별, 상세한 화학적 및 약동학적 특성 검색, 안전성 및 독성 평가 제공이 포함됩니다. 중요한 점은 AiChemy가 검증 가능한 데이터 소스에서 추적 가능한 지원 증거로 자신의 결과를 뒷받침하므로 연구에 이상적입니다.

사용 사례 1: 질병 메커니즘 이해, 약물 표적 발굴 및 선도 물질 생성

Guided Tasks 패널은 질병 -> 표적 -> 약물 -> 문헌 검증의 신약 개발 워크플로에서 주요 단계를 수행하는 데 필요한 프롬프트와 에이전트 Skills를 제공합니다.

치료 표적 식별: 특정 질병 하위 유형(예: ER 및 HER2는 주요 단백질 바이오마커)인 에스트로겐 수용체 양성(ER+)/HER2 음성(HER2-) 유방암으로 시작하여 관련 치료 표적(예: ESR1)을 찾습니다.
관련 약물 찾기: 식별된 표적(예: ESR1)을 사용하여 잠재적인 약물 후보를 찾습니다.
문헌 검증: 주어진 약물 후보(예: camizestrant)에 대해 과학 문헌에서 지원 증거를 확인합니다.

사용 사례 2: 화학적 유사성을 통한 선도 물질 생성

2023년에 승인된 경구용 선택적 에스트로겐 수용체 조절제(SERM)인 Elacestrant의 후속 물질을 식별하기 위해 화학적 유사성을 활용할 수 있습니다. 정량적 구조-활성 관계(QSAR) 원칙에 따라 유사한 특성을 공유할 것이라고 제안하므로, Elacestrant와 구조적으로 유사한 약물 유사 분자를 대규모 ZINC15 화학 라이브러리에서 검색합니다. 이는 Databricks AI Search를 쿼리하여 달성되며, Elacestrant의 1024비트 Extended-Connectivity Fingerprint (ECFP) 분자 임베딩(쿼리 벡터로 사용)을 사용하여 ZINC의 2억 5천만 분자 인덱스 내에서 가장 유사한 임베딩을 찾습니다.

그림 2. AiChemy는 2억 5천만 개의 상업적으로 이용 가능한 분자로 구성된 ZINC 데이터베이스의 벡터 검색을 포함합니다. 이를 통해 화학적 유사성을 기반으로 선도 화합물을 생성할 수 있습니다. 이 스크린샷에서는 ECFP4 분자 임베딩을 기반으로 Elacestrant와 가장 유사한 화합물을 ZINC 벡터 검색에서 찾도록 AiChemy에 요청했습니다.

자신만의 연구용 다중 에이전트 슈퍼바이저 구축

Databricks에서 공개 MCP 서버와 Databricks의 독점 데이터를 통합하여 다중 에이전트 슈퍼바이저를 사용자 정의할 것입니다. 이를 위해 노코드 Agent Bricks 또는 Notebook과 같은 코딩 옵션을 사용할 수 있습니다. Databricks Playground를 사용하면 에이전트를 신속하게 프로토타이핑하고 반복할 수 있습니다.

1단계: 다중 에이전트 슈퍼바이저에 필요한 구성 요소 준비

다중 에이전트 시스템에는 5개의 워커가 있습니다.

OpenTargets: 질병-표적-약물 지식 그래프의 외부 MCP 서버
PubMed: 생의학 문헌의 외부 MCP 서버
PubChem: 화학 화합물의 외부 MCP 서버
약물 라이브러리(Genie): 텍스트-SQL 기능을 제공하기 위해 Genie space로 만든 구조화된 약물 특성을 포함하는 화학 라이브러리입니다.
화학 라이브러리(AI Search): 임베딩을 통한 유사성 검색을 용이하게 하기 위해 벡터 인덱스로 준비된 비구조화 화학 데이터의 독점 라이브러리입니다.

1a단계: Unity Catalog(UC) 연결을 사용하여 UI 또는 Databricks Notebook(예: 4_connect_ext_mcp_opentarget.py)에서 공개 MCP 서버에 안전하게 연결합니다.

1b단계: 구조화된 테이블(예: DrugBank)이 Genie space로 변환되고 텍스트-SQL 기능을 사용하도록 UI를 통해 설정되었는지 확인합니다. 1_load_drugbank and descriptors.py를 참조하세요.

1c단계: 비구조화 화학 라이브러리가 벡터 인덱스로 생성되었는지 확인합니다. UI 또는 Notebook에서 유사성 검색을 활성화할 수 있도록 설정합니다. 2_create VS zinc15.py를 참조하세요.

2단계(간편 옵션): 노코드 Supervisor Agent를 사용하여 2분 안에 다중 에이전트 슈퍼바이저 구축

이러한 구성 요소들을 조립하기 위해, UI를 통해 위 구성 요소들로 감독자 에이전트를 구축하고 몇 분 안에 REST API 엔드포인트로 배포하는 노코드 Agent Bricks를 사용해 보세요.

2단계 (고급 옵션): Databricks Notebook을 사용하여 다중 에이전트 감독자 구축

에이전트 메모리 및 스킬과 같은 고급 기능을 사용하려면, Databricks Notebook에서 Langgraph 감독자를 개발하여 Lakebase, Databricks Serverless Postgres 데이터베이스와 통합하세요. 코드 리포지토리를 확인하면 config.yml에서 다중 에이전트 구성 요소(1단계 참조)를 간단히 정의할 수 있습니다.

config.yml이 정의되면, React 웹 사용자 인터페이스(UI)와 함께 MLflow AgentServer(FastAPI 래퍼)로 다중 에이전트 감독자를 배포할 수 있습니다. UI 또는 Databricks CLI를 통해 Databricks Apps에 둘 다 배포하세요. 사용자가 Databricks 앱을 사용하고 앱의 서비스 주체가 기본 리소스(예: 추적 로깅을 위한 실험, 해당되는 경우 비밀 범위)에 액세스할 수 있도록 적절한 권한을 설정하세요.

3단계: 에이전트 평가 및 모니터링

에이전트에 대한 모든 호출은 자동으로 로깅되고 OpenTelemetry 표준을 사용하여 Databricks MLflow 실험으로 추적됩니다. 이를 통해 오프라인 또는 온라인에서 응답을 쉽게 평가하여 에이전트를 개선할 수 있습니다. 또한 배포된 다중 에이전트는 AI Gateway 뒤의 LLM을 사용하므로 중앙 집중식 거버넌스, 내장된 안전 장치 및 프로덕션 준비를 위한 완전한 가시성의 이점을 누릴 수 있습니다.

그림 3. React UI 또는 REST API를 통해 다중 에이전트에 대한 모든 호출은 종단 간 가시성을 위해 OpenTelemetry 표준을 준수하는 MLflow 추적에 로깅됩니다.

그림 4. MLflow 추적은 쉬운 디버깅 및 최적화를 위해 추론 단계, 도구 호출, 검색된 문서, 지연 시간 및 토큰 사용량을 포함한 전체 실행 그래프를 캡처합니다.

다음 단계

지금 바로 AiChemy 웹 앱과 Github 리포지토리를 탐색해 보세요. 직관적인 노코드 Agent Bricks 프레임워크를 Databricks에서 사용하여 사용자 지정 다중 에이전트 시스템을 구축하고, 정보를 찾는 데 시간을 낭비하지 말고 발견을 시작하세요!

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)