작성자: 아리 카플란 , Pearl Ubaru
(번역: Youngkyong Ko) Original Post
데이터브릭스 Unity Catalog("UC")는 클라우드와 데이터 플랫폼에 걸쳐 기업의 모든 데이터와 AI 자산을 위한 단일 통합 거버넌스 솔루션을 제공합니다. 이 블로그에서는 이전 Unity Catalog 거버넌스 가치 레버 블로 그를 자세히 살펴보고 이 기술 자체가 포괄적인 데이터 및 AI 모니터링, 리포팅, 리니지를 통해 구체적으로 어떻게 긍정적인 비즈니스 성과를 달성할 수 있는지 보여줍니다.
Unity Catalog 거버넌스 가치 레버 블로그에서는 정보 보안, 액세스 제어, 사용 모니터링, 가드레일 정책, 데이터 자산의 "진리의 단일 출처(single source of truth)"를 확보하기 위해 거버넌스가 조직적으로 중요한 이유에 대해 설명합니다. 회사의 성장과 함께 이러한 과제가 더욱 복잡해지고 있으며, 데이터브릭스 UC 없이는 기존의 거버넌스 솔루션으로는 요구 사항을 충족시키기 어려워지고 있습니다.
그리고 여러 공급업체에 걸쳐 관리되는 규정 준수 및 데이터 개인정보 보호 취약성, 통제되지 않고 사일로화된 데이터 및 AI 늪, 기하급수적으로 증가하는 비용, 기회, 수익, 협업의 손실 등이 주요 도전 과제로 논의되었습니다.
그렇다면 이 모든 것이 기술적 관점에서 어떻게 작동할까요? UC는 데이터브릭스 데이터 인텔리전스 플랫폼에 등록된 모든 자산을 관리합니다. 이러한 자산은 BI, DW, 데이터 엔지니어링, 데이터 스트리밍, 데이터 과학, 머신 러닝 등 무엇이든 될 수 있습니다. 이 거버넌스 모델은 액세스 제어, 리니지, 검색, 모니터링, 감사, 공유 기능을 제공합니다. 또한 파일, 테이블, ML 모델, 노트북 및 대시보드의 메타데이터 관리 기능도 제공합니다. UC는 아래에서 설명하는 대로 데이터브릭스 자산 카탈로그, 피처 저장 소(feature store) 및 모델 레지스트리, 리니지 기능, 데이터 분류를 위한 메타데이터 태깅을 통해 전체 엔드투엔드 정보를 한 번에 볼 수 있는 단일 뷰를 제공합니다:





데이터브릭스 레이크하우스 모니터링은 데이터와 피처부터 머신러닝 모델에 이르는 전체 데이터 파이프라인을 추가 툴이나 복잡성 없이 모니터링할 수 있도록 지원합니다. Unity Catalog를 기반으로 하는 이 기능을 사용하면 데이터와 AI 자산의 리니지에 대한 심층적인 인사이트를 통해 데이터와 AI 자산의 고품질, 정확성, 안정성을 고유하게 보장할 수 있습니다. 레이크하우스 아키텍처가 지원하는 단일 통합 모니터링 접근 방식을 통해 오류를 진단하고 근본 원인 분석을 수행하며 해결책을 간편하게 찾을 수 있습니다.
데이터의 위치에 관계없이 전체 데이터 파이프라인에서 데이터, ML 모델 및 AI에 대한 신뢰를 어떻게 단일 뷰로 보장할 수 있을까요? 데이터브릭스 레이크하우스 모니터링은 데이터의 위치에 관계없이 데이터에서 인사이트까지 제공하는 업계 유일의 종합 솔루션입니다. 문제 발견을 가속화하고 근본 원인을 파악하며 궁극적으로 솔루션을 추천하는 데 도움을 줍니다.
UC는 레이크하우스 모니터링 기능에 민주화된 대시보드와 시스템 테이블을 통해 직접 쿼리할 수 있는 세분화된 거버넌스 정보를 모두 제공합니다. 거버넌스의 민주화는 운영 감독 및 규정 준수를 비기술 인력까지 확대하여 다양한 팀에서 모든 파이프라인을 모니터링할 수 있도록 합니다.
아래는 시간 경과에 따른 정확도를 포함한 ML 모델 결과의 샘플 대시보드입니다:

또한 예측의 데이터 무결성과 시간 경과에 따른 데이터 드리프트도 보여줍니다:

또한 R2, RMSE, MAPE와 같은 다양한 ML 메트릭에 대해 시간 경과에 따른 모델 성능을 확인할 수 있습니다:

답을 찾을 때 의도적으로 ML 모델 정보를 찾는 것과 오류, 데이터 드리프트, 모델 실패 또는 품질 문제에 대한 자동화된 사전 예방적 알림을 받는 것은 전혀 다른 차원의 문제입니다. 다음은 잠재적인 PII(개인 식별 정보) 데이터 유출에 대한 알림의 예시입니다:

한 가지 더, 테이블 수준에서 열 수준까지 데이터브릭스의 강력한 리니지 기능을 통해 문제의 영향을 평가하고, 근본 원인 분석을 수행하고, 다운스트림에 미치는 영향을 평가할 수 있습니다.
이 기본 테이블을 SQL 또는 활동 대시보드를 통해 쿼리하여 데이터브릭스 인텔리전스 플랫폼 내의 모든 자산에 대한 통합 가시성을 제공할 수 있습니다. 예를 들어, 어떤 사용자가 어떤 데이터 개체에 액세스할 수 있는지, 가격 및 사용량을 제공하는 청구 테이블(billing tables), 클러스터 사용량 및 웨어하우스 이벤트를 고려한 계산 테이블(compute tables), 열과 테이블 간의 리니지 정보 등이 있습니다:
카탈로그 탐색기에서 자세한 내용을 볼 수 있는 시스템 테이블 중 몇 가지를 소개합니다:

예를 들어, "key_column_usage" 테이블을 드릴다운하면 기본 키(primary key)를 통해 테이블이 서로 어떻게 연관되어 있는지 정확하게 확인할 수 있습 니다:

또 다른 예로 "share_recipient_privileges" 테이블에서는 누가 누구에게 어떤 공유를 부여했는지 확인할 수 있습니다:

아래 예제 대시보드에는 사용자 수, 테이블, ML 모델, 모니터링되는 테이블의 비율, 시간 경과에 따른 Databricks DBU에 지출된 비용 등이 나와 있습니다:

Unity Catalog가 비즈니스에 제공하는 가치에 대해 자세히 알아보려면 이전 Unity Catalog 거버넌스 가치 레버 블로그에서 규정 준수 관련 위험 완화, 플랫폼 복잡성 및 비용 절감, 혁신 가속화, 내부 및 외부 협업 개선, 데이터의 가치 수익화에 대해 자세히 살펴보시기 바랍니다.
거버넌스는 위험 완화, 규정 준수 보장, 혁신 가속화, 비용 절감의 핵심입니다. 데이터브릭스 Unity Catalog는 클라우드와 데이터 플랫폼 전반에서 기업의 모든 데이터와 AI를 위한 단일 통합 거버넌스 솔루션을 제공하는 업계 유일의 솔루션입니다.
UC 데이터브릭스 아키텍처는 모든 데이터 자산의 통합된 보기 및 검색, 액세스 관리를 위한 하나의 도구, 향상된 데이터 및 AI 보안을 위한 감사 도구, 궁극적으로 새로운 비즈니스 가치를 창출하는 플랫폼 독립적인 협업을 가능하게 하는 등 거버넌스를 원활하게 만들어 줍니다.
UC는 쉽게 시작할 수 있습니다. 신규 고객인 경우 데이터브릭스에서 UC가 기본으로 활성화되어 있습니다! 또한 프리미엄 또는 엔터프라이즈 워크스페이스를 사용 중인 경우에도 추가 비용이 들지 않습니다.
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.