실시간 데이터에 대한 예측을 위해 머신러닝 모델을 실제 운영 환경에 배포하려면 서비스, 모니터링, 재학습 및 통합을 위한 인프라가 필요합니다.
작성자: Databricks 직원
데이터 카탈로그는 조직의 데이터 자산을 위한 궁극적인 '보물 지도' 역할을 하는 중앙 집중식 인벤토리 및 관리 시스템입니다. 데이터 전문가와 비즈니스 사용자가 전체 에코시스템에서 데이터를 검색하고, 이해하고, 효과적으로 활용할 수 있도록 지원하는 포괄적이고 검색 가능한 메타데이터 리포지토리를 제공합니다. 데이터세트, 데이터 구조, 계보, 품질 및 사용 패턴에 대한 정보를 정리하여 데이터에 더 쉽게 액세스하고 신뢰할 수 있도록 만드는 정교한 데이터용 라이브러리 카탈로그 시스템이라고 생각하면 됩니다.
오늘날의 데이터 기반 환경에서 조직은 여러 시스템, 플랫폼, 형식에 흩어져 있는 방대한 양의 정보에 압도되고 있습니다. 현대 기업들은 전례 없는 도전에 직면해 있습니다. 거의 모든 조직이 데이터에 완전히 압도당하고 있으며, 대규모 언어 모델 및 AI 에이전트와 같은 새로운 기술은 상황을 더욱 복잡하게 만들고 있습니다.
데이터 카탈로그는 최신 데이터 환경을 괴롭히는 몇 가지 중요한 문제점을 해결합니다. 데이터 사일로는 가장 중요한 과제 중 하나입니다. 귀중한 정보가 부서별 시스템에 갇히게 되어 이를 통해 이점을 얻을 수 있는 다른 팀에게는 보이지 않게 됩니다. 검색 가능성이 낮다는 것은 애널리스트들이 적합한 데이터세트를 찾는 데 수많은 시간을 소비하며, 종종 조직의 다른 곳에 이미 존재하는 작업을 다시 만드는 것을 의미합니다.
또한 카탈로그는 시스템 전반에 걸쳐 동일한 정보의 중복되고 일관성 없는 버전이 확산되는 데이터 스프롤(data sprawl) 문제를 해결합니다. 적절한 거버넌스와 조직화가 없으면 팀은 데이터에 대한 신뢰를 잃고 신뢰할 수 있는 정보보다는 '감'에 기반한 결정을 내리게 됩니다. 잘 구현된 데이터 카탈로그는 이 혼란스러운 환경을 데이터 기반 의사 결정을 위한 관리되고 신뢰할 수 있는 기반으로 전환합니다.
데이터 카탈로그의 핵심 기능은 다음과 같습니다.
데이터 카탈로그는 일반적으로 두 가지 주요 카테고리로 나뉘며, 각 카테고리는 서로 다른 조직의 요구사항과 사용 사례에 부응합니다.
운영 카탈로그 는 주로 데이터 자산에 대한 액세스를 관리하고 데이터 인프라의 기술적 측면을 관리하는 데 중점을 둡니다. 이러한 카탈로그는 사용 패턴 기록 및 감사, 세분화된 액세스 제어 관리, 보안 정책 구현에 탁월합니다. 일반적으로 데이터 플랫폼과 긴밀하게 통합되며 행 수준 필터링 및 열 마스킹을 위한 강력한 기능을 제공합니다. 운영 카탈로그는 데이터 플랫폼의 일상적인 거버넌스 요구 사항을 처리하도록 설계되어 데이터 리소스에 대한 안전하고 규정을 준수하는 액세스를 보장합니다.
비즈니스 또는 레퍼런스 카탈로그 는 데이터 자산의 사용자 대면 경험과 비즈니스 컨텍스트를 강조합니다. 이러한 솔루션에는 비즈니스 용어집, 승인 워크플로, 콘텐츠 큐레이션, 협업 데이터 관리를 위한 정교한 기능이 포함되는 경우가 많습니다. 풍부한 비즈니스 컨텍스트를 제공하고, 비즈니스 사용자 관점에서 데이터 탐색을 지원하며, 데이터 자산을 중심으로 한 부서 간 협업을 촉진하는 데 탁월합니다.
Unity Catalog과 같은 일부 최신 솔루션은 운영 카탈로그의 기술 거버넌스 기능과 참조 카탈로그의 사용자 친화적인 비즈니스 기능을 결합하여 두 범주를 모두 연결함으로써 조직에 데이터 카탈로깅에 대한 통합된 접근 방식을 제공합니다.
포괄적인 데이터 카탈로그를 구현하면 조직이 데이터를 사용하는 방식을 혁신하는 상당한 비즈니스 및 기술적 이점을 얻을 수 있습니다.
데이터 카탈로그는 조직의 데이터 자산에 대한 포괄적인 뷰를 생성하는 여러 상호 연결된 프로세스를 통해 작동합니다.
이 프로세스는 데이터베이스, 데이터 웨어하우스, 클라우드 스토리지 시스템, 비즈니스 인텔리전스 도구 및 앱을 포함한 데이터 에코시스템 전체의 다양한 소스에서 메타데이터를 수 집하는 것으로 시작됩니다. 카탈로그는 스키마 정보와 같은 메타데이터를 자동으로 검색하고 추출하는 동시에 사용자 기여 및 다른 시스템과의 통합을 통해 비즈니스 메타데이터도 캡처합니다.
데이터 색인화 및 강화는 다음으로 중요한 단계로, 카탈로그는 수집된 메타데이터를 처리하고 구성하여 검색 가능하고 의미 있게 만듭니다. 여기에는 다양한 데이터 자산 간의 관계 생성, 자동화된 분류 알고리즘 적용, 데이터 품질 점수, 사용 통계 및 비즈니스 관련성 지표와 같은 추가 컨텍스트로 메타데이터를 강화하는 작업이 포함됩니다.
검색 기능은 색인화된 메타데이터를 활용하여 탐색 기능을 제공합니다. 사용자는 비즈니스 용어, 기술 사양, 데이터 소유자 정보 또는 사용 패턴 등 다양한 기준을 사용하여 검색할 수 있습니다. 고급 카탈로그는 머신러닝 알고리즘을 사용하여 사용자 행동 및 데이터 관계를 기반으로 검색 관련성을 개선하고 지능적인 추천을 제공합니다.
사용자 역할과 권한은 카탈로그가 조직의 보안 정책과 데이터 거버넌스 요구사항을 준수하도록 보장합니다. 사용자마다 메타데이터 및 기본 데이터 자산에 대한 액세스 수준이 다를 수 있으며, 카탈로그는 이러한 제한을 적용하면서도 각 사용자의 승인된 범위 내에서 유용한 검색 기능을 제공합니다.
데이터 카탈로그가 관련 개념과 어떻게 다른지 이해하면 고유한 가치 제안과 적절한 사용 사례를 명확히 하는 데 도움이 됩니다.
데이터 카탈로그 대 데이터 사전
데이터 사전은 주로 특정 시스템이나 데이터베이스 내 데이터 요소의 구조와 의미를 정의하는 데 중점을 둔 보다 제한적이고 정적인 리포지토리입니다. 일반적으로 필드 이름, 데이터 유형, 제약 조건 및 기본 정의와 같은 기술 사양을 포함합니다. 반면 데이터 카탈로그는 여러 시스템을 포괄하고 비즈니스 컨텍스트를 포함하며 데이터 리니지를 추적하고 협업 기능을 지원하는 훨씬 더 광범위하고 동적인 뷰를 제공합니다. 데이터 사전은 특정 테이블에 어떤 필드가 있는지 알려주는 반면, 데이터 카탈로그는 해당 테이블이 다른 데이터 자산과 어떻게 관련되어 있는지, 누가 사용하는지, 어디서 왔는지, 얼마나 신뢰할 수 있는지 이해하는 데 도움을 줍니다.
데이터 카탈로그와 메타데이터 리포지토리 비교
메타데이터 리포지토리는 메타데이터를 위한 기술적 저장 시스템입니다. 이는 주로 데이터에 대한 데이터(메타데이터)의 수집 및 저장 측면에 중점을 둡니다. 이는 다른 도구가 프로그래밍 방식으로 액세스하는 백엔드 시스템으로 작동하는 경우가 많습니다. 하지만 데이터 카탈로그는 메타데이터 리포지토리 기능을 기반으로 사용자 친화적인 인터페이스, 검색 및 탐색 기능, 협업 도구, 거버넌스 워크플로를 제공합니다. 카탈로그는 원시 메타데이터를 기술 사용자와 비즈니스 사용자 모두가 효과적으로 활용할 수 있는 실행 가능한 인사이트와 접근 가능한 도구로 변환합니다. 메타데이터 리포지토리가 기반이 되는 반면, 데이터 카탈로그는 의사결정에 메타데이터를 가치 있게 만드는 사용자 대면 애플리케이션입니다.
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.