2026년 5월 27일

Databricks Lakehouse 기반 FHIR 네이티브 건강 데이터 플랫폼 구축

작성자: Marcin Jimenez, Aleksandr Kislitsyn , Nikolai Ryzhikov

Health Samurai는 용어 정규화 및 환자 중복 제거 기능을 내장하여 HL7v2, C-CDA, X12의 임상 데이터를 수집 시 FHIR로 표준화합니다.
Aidbox는 Databricks Lakebase에서 네이티브로 실행되어 ETL 또는 데이터 이동 없이 Spark, ML 및 AI에서 FHIR 데이터를 즉시 사용할 수 있습니다.
이 아키텍처는 별도의 작업 없이 CMS-0057 및 ONC 요구 사항을 준수합니다.

의료 데이터는 수십 개의 시스템, EHR, 청구, 검사실, 약국, SDoH 등에 흩어져 있으며, 각 시스템은 고유한 형식, 코드, 중복을 가지고 있습니다. 이 파편화된 환경을 통합되고 FHIR 표준화되었으며 신뢰할 수 있는 데이터 기반으로 전환하는 것은 더 나은 결과, 더 스마트한 운영 및 규제 준비를 위한 핵심 단계입니다. 이 블로그에서는 Health Samurai와 Databricks가 오픈 표준을 기반으로 어떤 규모에서든 해당 기반을 구축할 수 있는 기술을 제공하는 방법을 알아봅니다.

오늘날 지능형 의료 애플리케이션은 비즈니스의 최전선에 있지 않습니다. 이러한 애플리케이션은 선제적으로 진료 격차를 해소하고, 실시간 회원 참여를 지원하며, 설계 시 규정 준수를 보장하는 등 비즈니스를 운영합니다. 하지만 이러한 애플리케이션은 대부분의 의료 조직이 구축하는 데 어려움을 겪었던 데이터 기반, 즉 표준화되고, 거버넌스화되며, 시스템 간 데이터 이동 없이 스택의 모든 도구에서 액세스할 수 있는 데이터 기반을 요구합니다.

운영 인텔리전스와 분석 기능이 통합되고 진정으로 상호 운용 가능하여 동일한 인사이트를 제공할 수 있다면 어떨까요?

과제: 파편화된 데이터, 파편화된 거버넌스

의료 데이터 환경은 독특하게 복잡합니다. 환자 정보는 HL7v2 메시지, C-CDA 문서, X12 트랜잭션 및 독점 형식에 흩어져 있으며, 각 시스템은 동일한 임상 개념을 다르게 인코딩합니다. 단일 진단이 여러 어휘에서 여러 코드로 나타날 수 있습니다. 단일 환자가 여러 시스템에 걸쳐 여러 레코드로 존재할 수 있습니다.

이 데이터를 통합하는 기존 접근 방식은 상호 운용성을 위한 FHIR 서버, 분석을 위한 별도의 데이터 웨어하우스, 두 시스템을 연결하는 ETL 파이프라인 웹을 구축하는 것을 포함합니다. 각 시스템은 자체 액세스 제어, 감사 추적 및 규정 준수 상태를 유지합니다.

이러한 중복은 비용이 많이 듭니다. 동일한 임상 데이터가 FHIR 서버, 웨어하우스 및 여러 스테이징 계층에 복제되며, 각 계층은 스토리지, 컴퓨팅 및 운영 오버헤드를 추가합니다. 한편, FHIR 서버 자체는 종종 병목 현상이 됩니다. 대부분의 구현은 트랜잭션 사용 사례(문서 교환, 포인트 조회, 규제 API)를 위해 설계되었으며, 수백만 개의 리소스를 효율적으로 스캔해야 하는 최신 분석, ML 파이프라인 또는 AI 에이전트의 액세스 패턴을 위해서는 설계되지 않았습니다.

결과적으로 조직은 성능을 유지하기 위해 FHIR 인프라를 과도하게 프로비저닝하거나, 데이터를 사용 가능하게 만들기 위해 또 다른 시스템으로 데이터를 추출하는 절충안을 강요받습니다.

결과는 예측 가능합니다. 느린 데이터 이동, 파편화된 거버넌스, 그리고 모델이 필요한 곳에서 깨끗하고 신뢰할 수 있으며 잘 거버넌스화된 데이터에 안정적으로 액세스할 수 없기 때문에 AI 이니셔티브가 중단됩니다. 비용은 증가하고 유연성은 감소합니다. 사일로화되고 일관성이 없으며 제대로 거버넌스화되지 않은 데이터 위에 지능형 케어 애플리케이션을 구축할 수 없습니다.

비전: 단일 데이터셋, 모든 도구, 데이터 이동 없음

임상 데이터가 입력 시점에 FHIR로 표준화되는 단일 플랫폼을 상상해 보세요. 해당 데이터가 이동이나 변환 없이 Spark 분석, ML 모델, AI 에이전트 및 BI 대시보드에서 즉시 사용할 수 있습니다. 규정 준수가 별도의 작업 흐름이 아니라 아키텍처의 자연스러운 속성인 곳입니다. EHR부터 데이터 과학자의 노트북까지 모든 도구가 동일한 거버넌스화되고 신뢰할 수 있는 데이터를 보는 곳입니다.

이것이 바로 Health Samurai와 Databricks가 함께 구축한 것입니다.

작동 방식: Health Samurai

집계 및 표준화

데이터 품질의 첫 번째 마일이 인사이트의 마지막 마일을 결정합니다. Health Samurai는 다양한 소스의 데이터를 수집하고 표준화하여 통합된 FHIR 네이티브 데이터 기반을 구축하는 기술과 전문 지식을 제공합니다.

이 계층의 모든 것은 상호 운용성을 염두에 두고 구축됩니다. 데이터 형식 및 API는 FHIR R4/R5, HL7 v2, C-CDA 및 X12를 포함한 HL7 및 X12를 기반으로 합니다. 임상 의미는 LOINC, SNOMED CT, RxNorm 및 ICD-10과 같은 널리 채택된 코드 시스템을 사용하여 표현됩니다. 특정 사용 사례에 대한 적합성은 US Core, CARIN Blue Button, Da Vinci PDex 및 mCODE와 같은 FHIR 구현 가이드(IG)를 통해 정의되며, 규정 및 파트너 요구 사항이 발전함에 따라 추가 코드 시스템 및 IG가 통합됩니다.

이것은 체크박스가 아니라 의도적인 아키텍처 선택입니다. 오픈 표준은 데이터 모델이 단일 공급업체에 고정되지 않도록 보장하는 것을 의미합니다. 오늘날 상호 운용성을 지원하는 FHIR 리소스는 재작업 없이 분석, AI 및 향후 애플리케이션을 지원할 수 있습니다. 도구를 전환한다고 해서 데이터를 다시 모델링할 필요는 없습니다.

주요 기능은 다음과 같습니다.

오픈 소스 HL7v2, C-CDA 및 X12 변환기 레거시 데이터를 의료 상호 운용성을 위한 최신 표준인 FHIR로 변환합니다.
FHIR 네이티브 용어 서버 어휘 전반의 코드를 정규화하여 진단이 소스 시스템에 관계없이 한 번만 계산되도록 합니다.
MDM/MPI(마스터 데이터 관리/마스터 환자 인덱스) 환자 레코드를 중복 제거하여 한 명의 환자가 하나의 골든 레코드가 되도록 합니다.
FHIR 구현 가이드 및 유효성 검사 사후가 아닌 입력 시점에 데이터 품질 및 적합성을 강제합니다.

결과는 환자당 단일 골든 레코드를 가진 깨끗하고 표준화된 FHIR 데이터입니다. 품질과 투명성은 사후 접근 방식이 아니라 기초입니다.

Health Samurai는 각 조직의 특정 데이터 환경에 맞게 이러한 파이프라인과 도구를 구성하는 데 도움을 줍니다.

모든 곳에서 액세스 — ETL 없음

여기서 아키텍처가 혁신적으로 변합니다. Health Samurai의 FHIR 서버 및 데이터베이스인 Aidbox는 Databricks Lakehouse에서 네이티브로 실행됩니다.

Lakehouse는 Databricks 데이터 인텔리전스 플랫폼에 통합된 완전 관리형 서버리스 Postgres 데이터베이스입니다. Aidbox가 Lakehouse에서 직접 실행되므로 ETL 없이 FHIR 데이터를 Databricks 전체 도구 모음에서 즉시 사용할 수 있습니다.

데이터는 운영 및 분석 형식 간의 실시간 동기화 엔진인 Moonlink를 통해 ETL 없이 복제됩니다. 이를 통해 FHIR 데이터가 분석 계층으로 원활하게 흐르고 파이프라인, 변환 또는 지연에 대한 종속성이 제거됩니다.

이를 통해 단일 데이터셋에서 두 가지 상호 보완적인 액세스 패턴이 생성되며, 둘 다 분석 및 운영 워크로드를 지원합니다.

Databricks 네이티브 액세스: 분석, 데이터 과학 및 AI를 위한 Spark, SQL, ML, AI/BI
표준 기반 액세스: FHIR API, SMART on FHIR 및 SQL on FHIR ViewDefinitions(분석을 위해 중첩된 FHIR 리소스를 테이블 형식 뷰로 평탄화하는 새로운 HL7 표준)

구축할 수 있는 것

통합된 FHIR 데이터와 Health Samurai 및 Databricks의 결합된 성능을 통해 조직은 특정 과제를 유연하게 해결할 수 있습니다.

EHR 최적화 및 가치 기반 진료

Databricks AI 기반의 임상 및 관리 의사 결정 지원은 SMART on FHIR 및 CDS Hooks를 통해 EHR 및 청구 워크플로에 다시 연결됩니다. 이를 통해 다음을 수행할 수 있습니다.

HEDIS/STARS 점수 및 품질 측정
위험 조정 및 HCC 캡처 최적화
계약 분석 및 공유 수익 추적
사후적이 아닌 선제적으로 진료 격차를 해소하는 에이전트 AI

FHIR 네이티브 기반은 인사이트가 진료 시점에 임상의에게 직접 전달되어 기존 워크플로에 내장됨을 의미합니다.

대규모 회원 참여

다음과 같은 방법으로 환자 및 회원과 의미 있는 관계를 구축합니다.

FHIR API를 백본으로 하는 환자 포털 — 설계 시 표준 준수
Databricks의 예측 모델을 사용하여 수백만 명의 회원에게 적절한 채널, 메시지 및 타이밍을 결정하는 대규모 개인화된 아웃리치
아키텍처의 자연스러운 속성으로 포함된 환자 액세스 API

규정 준수 — 나중에 추가하는 것이 아니라 내장되어 있습니다

FHIR을 기반으로 구축함으로써 조직은 아키텍처의 자연스러운 속성으로 CMS-0057(상호 운용성 및 환자 액세스) 및 ONC 요구 사항과 같은 의무를 해결합니다.

환자 액세스 규칙 준수
보험사 간 데이터 교환
ONC 건강 IT 인증 준비

규정 준수는 별도의 프로젝트가 아니라 올바르게 수행하는 것의 부산물입니다.

지금 중요한 이유

CMS 및 ONC 규제 마감일이 빠르게 다가오고 있으며 AI는 파일럿에서 프로덕션으로 이동하고 있지만 신뢰할 수 있고 거버넌스된 데이터에서만 가능합니다. 별도의 FHIR 서버, 별도의 분석 플랫폼 및 두 시스템을 연결하는 ETL 파이프라인을 유지 관리하는 기존 접근 방식은 현대 의료의 요구 사항에 비해 너무 느리고, 너무 비싸고, 너무 취약합니다.

Lakebase는 상호 운용성 투자를 미래에 대비하게 합니다. FHIR 서버는 데이터 인텔리전스 플랫폼에서 실행됩니다. 임상 운영과 분석은 정보에 대한 동일한 진실 공급원을 공유합니다. Unity Catalog는 운영 데이터부터 인사이트 및 AI까지 모든 것을 관리합니다. 개방형 표준은 공급업체 종속이 없는 유연성을 의미합니다.

시작하기

Health Samurai와 Databricks — 건강 데이터 플랫폼을 위한 개방형 기술입니다.

Databricks Lakebase에 대해 자세히 알아보기
Health Samurai의 Aidbox 살펴보기
건강 데이터 플랫폼 전략에 대해 논의하려면 문의하세요.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)