주요 컨텐츠로 이동

Databricks와 AI를 활용한 헬스케어 분야의 공급자 MDM 가속화

Databricks를 활용한 헬스케어 산업의 마스터 데이터 관리(MDM) 시작하기

Accelerating Provider MDM in Healthcare with Databricks and AI

Published: June 24, 2025

의료 및 생명 공학1분 이내 소요

Summary

  • Databricks에서 원래 구축된 LakeFusion MDM에 대해 더 알아보기
  • 대규모로 공급자 데이터를 마스터하는 방법, 운영 우수성을 추구하는 방법, 고급 분석을 가능하게 하는 방법을 이해하기
  • 포괄적이고 종단간 공급자 MDM 솔루션 가속기의 전체 잠재력을 해제하기

헬스케어 운영 및 환자 치료는 정확하고, 완전하며, 통합된 데이터에 의존합니다. 시기 적절한 청구 처리와 효율적인 참조 라우팅을 보장하는 것부터 통찰력 있는 성능 분석 제공, 규제 준수 유지에 이르기까지, 신뢰할 수 있는 단일 진실의 원천이 중요합니다.

공급자 정보는 헬스케어 조직에 대한 가장 복잡하고 도전적인 데이터 세트 중 하나로, 단일 진실의 원천에 대한 장벽을 만듭니다. 공급자 데이터는 많은 별도의 소스에서 관리됩니다: 전자 의료 기록(EMRs), 국가 계획 및 공급자 열거 시스템(NPPES), 청구 시스템, 자격 데이터베이스, 외부 디렉토리 등. 이러한 모든 시스템들은 공급자를 약간 다르게 표현하며, 이는 가치 있는 헬스케어 분석과 통찰력에 대한 장벽으로 작용하는 상호 운용성에 많은 도전을 만듭니다.

이 문제를 해결하기 위한 마스터 데이터 관리(MDM)의 기회

마스터 데이터 관리(MDM) 솔루션은 이러한 문제를 해결하기 위해 데이터를 원본 시스템 및 분석 시스템에서 이동시키고, 처리한 후 다시 이동시킵니다. 이 "먼저 이동" 접근 방식은 복잡한 데이터 파이프라인, 증가된 대기 시간, 거버넌스 장애, 그리고 상당한 인프라 비용 등 중요한 도전을 도입합니다. 이는 현대 헬스케어 데이터의 볼륨, 속도, 다양성에 맞춰 발전하는 데 어려움을 겪는 모델입니다.

여기서 Databricks 데이터 인텔리전스 플랫폼이 레이크하우스 아키텍처를 기반으로 도움이 될 수 있습니다. 데이터와 처리를 함께 가져옴으로써 Databricks는 조직이 전통적인 아키텍처의 제한을 극복하고 데이터 관리에 대한 새로운 가능성을 해제할 수 있게 합니다. "데이터 중력" 원칙을 활용하여 Databricks는 데이터가 존재하는 곳에서 데이터를 처리할 수 있게 해, 비용이 많이 들고 복잡한 데이터 이동을 줄입니다.

헬스케어 조직이 Databricks에서의 여정을 가속화하고 공급자 MDM 문제를 해결하기 위해, 우리는 Frisco Analytics의 LakeFusion 제품과 함께하는 Provider 360 Accelerator를 소개하게 되어 기쁩니다. Databricks에 기본적으로 구축된 이 AI 기반 도구는 포괄적인 공급자 MDM을 달성하기 위한 중요한 단계를 나타냅니다.

공급자 데이터의 지속적인 도전

전통적인 MDM 시스템은 종종 공급자 데이터의 내재적 모호성과 변동성에 어려움을 겪습니다. 새로운 공급자 정보 원처와 공급자 표현의 변형을 플러그인하는 것이 점점 더 어렵고, 시간이 많이 걸리며, 비용이 많이 듭니다. 정확한 일치, 엄격한 규칙, 또는 레벤슈타인 거리(2개의 문구 사이의 거리)와 같은 퍼지 알고리즘에만 의존하면 많은 중복(예: 이름 철자, 주소 형식의 변형)을 놓칠 수 있고, 데이터 소스가 변경됨에 따라 지속적인 유지 관리가 필요하며, 기업 수준으로 확장되지 않습니다.

Databricks와 AI를 활용한 공급자 데이터 품질 가속화

조직이 공급자 디렉토리 정보나 CMS-9115-F 명령에 따른 가격 투명성을 소비하든, 가치 기반 치료(VBC) 계획을 위한 속성 모델을 구축하든, 황금 공급자 기록을 통해 더 나은 품질과 이용 지표를 추구하든, 또는 내부 시스템의 공급자 데이터 표현을 정리하든, Databricks에서의 Lakefusion AI 기반 엔티티 해결 이 빛을 발합니다. 취약한 규칙에 의존하는 대신, 임베딩 모델과 벡터 검색과 같은 고급 기법을 활용하여 공급자 기록 간의 의미론적 유사성 을 이해할 수 있습니다. 이를 통해 전통적인 식별자에서 정확하게 일치하지 않아도 유사한 기록을 식별할 수 있습니다.

LakeFusion의 핵심 기능에는 다음이 포함됩니다:

  • 고급 AI 기반 엔티티 해결: 임베딩 모델과 벡터 검색의 개념을 기반으로, LakeFusion은 대형 언어 모델(LLMs)과 정교한 매칭 알고리즘을 활용하여 복잡한 공급자 계층 구조와 관계에 대해 매우 정확하고 확장 가능한 엔티티 해결을 제공합니다.
  • 강력한 데이터 품질 프레임워크: 구성 가능한 규칙과 자동화된 프로세스를 사용하여 데이터 품질을 프로파일링, 정리, 검증, 모니터링합니다.
  • 설정 가능한 생존성: 여러 소스에서 중복 기록을 병합할 때 "황금 기록" 속성을 자동으로 결정하는 규칙을 정의합니다.
  • 그래픽 및 직관적 데이터 관리: 데이터 관리자에게 사용자 친화적인 인터페이스를 제공하여 잠재적인 일치 항목을 검토하고, 예외를 해결하며, 데이터 품질 문제를 관리할 수 있습니다.
  • Seamless Data Governance Integration: Databricks Unity Catalog를 완전히 활용하여 중앙 집중식 데이터 거버넌스, 계보 추적, 접근 제어, 그리고 마스터 데이터 전반에 걸친 감사를 가능하게 합니다.

Provider 360 Accelerator 는 오픈 소스이며 이 기능을 실제로 보여줍니다. 그것의 핵심 기능은 Vector Search 와 Databricks에서 사용 가능한 최첨단 임베딩 모델을 사용하여 공급자 데이터에 AI 기반 레코드 중복 제거를 적용하는 것입니다. 오픈 소스 노트북 세트에는 다음이 포함됩니다:

  1. Notebook 1 - 중복 후보 생성: 데이터 전체에서 AI 기반 퍼지 매칭을 수행하고, 벡터 검색을 활용하여 각 레코드의 잠재적 중복을 찾습니다.
  2. Notebook 2 - 중복 후보 분석: 후보 쌍의 유사성 점수에 대한 분석적 통찰력을 제공하여, 중복의 범위를 이해하고 데이터에 대한 적절한 신뢰 임계값을 결정하는 데 도움을 줍니다.
  3. Notebook 3 - 임계값 기반 중복 제거: 선택한 임계값을 적용하여 원본 데이터를 필터링하고, 가능성이 높은 중복을 제거하여 더 깨끗한 데이터셋을 생성합니다.

헬스케어에서 복잡한 공급자 데이터를 관리하는 도전은 실제이지만, 해결책은 이를 수행할 수 있습니다. Databricks의 힘과 AI의 최신 발전을 활용함으로써, 조직은 신뢰할 수 있는 공급자 데이터로의 여정을 크게 가속화할 수 있습니다.

종합적이고 종단간 공급자 MDM 솔루션의 전체 잠재력을 해제할 준비가 된 조직들에게, Databricks에 기본적으로 구축된 LakeFusion MDM은 대규모로 공급자 데이터를 마스터하고, 운영 탁월성을 추진하며, 고급 분석을 가능하게 하는 능력을 제공합니다.

공급자 MDM 여정을 가속화할 준비가 되셨나요?

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요