데이터를 도메인 팀이 소유하는 제품으로 취급하는 분산형 아키텍처는 셀프 서비스 인프라, 연합형 거버넌스 및 상호 운용성을 강조합니다.
작성자: Databricks 직원
데이터는 기업에게 중요하며, 혁신과 발전의 원료로 작용합니다. 조직이 데이터 및 의사 결정 중심으로 변화하면서 그 중요성이 더욱 커졌고, 이에 따라 조직이 대응해야 할 주요 과제가 생겼습니다. 레거시 데이터 레이크와 데이터 웨어하우스는 이러한 문제를 야기하며, 데이터 사일로를 형성하고 가시성을 낮추며, 데이터 처리 속도를 저하시켜 복잡성을 증가시킵니다. 이러한 장벽과 병목 현상은 협업을 방해하고 가치 있는 데이터 자원을 활용하지 못하게 합니다. 기업들은 데이터를 최대한 활용하기 위해 새로운 데이터 아키텍처가 필요합니다. 데이터 메시는 이 문제를 해결할 수 있는 현대적인 데이터 아키텍처입니다.
데이터 메시 는 대규모 데이터를 관리하고 그 데이터에서 더 많은 가치를 추출하기 위한 조직적 데이터 아키텍처입니다.
분산화는 데이터 메시의 핵심입니다. 데이터는 한 팀이 전체 조직을 위해 중앙에서 관리하는 대신, 여러 비즈니스 도메인이 독립적으로 소유하고 관리하며, 중앙의 거버넌스 규칙은 데이터가 상호 운용 가능하고 안전하며 의미론적으로 일관성을 유지하게 합니다.
도메인 데이터 관리자는 고품질의 데이터 제품을 제공하고 그들의 데이터를 보호하는 책임이 있습니다. 그들은 전체 조직의 데이터가 아닌 자신들의 도메인 비즈니스 데이터에만 책임을 지므로, 강력한 데이터 거버넌스를 유지하면서 더 관련성 있는 데이터를 더 빠르고 효율적으로 제공할 수 있습니다.
데이터 메시 원칙은 비즈니스 자율성과 글로벌 상호 운용성을 균형있게 조절합니다. 이 아키텍처는 중앙 집중식 팀에 대한 의존성을 줄이고 데이터 사일로를 피하면서, 팀이 비즈니스 가치를 창출하는 데이터 제품을 공동으로 만들고 공유하는 협업 환경을 촉진합니다.
논리적인 데이터 메시 아키텍처의 기반을 제공하는 네 가지 원칙:
전통적으로, 조직들은 데이터를 관리하기 위해 중앙집중식 데이터 팀을 사용합니다 - 비즈니스 전반에 걸쳐 데이터 저장, 형식화, 처리 및 분석을 포함합니다. 이는 일관된 데이터 관리와 거버넌스를 보장하지만, 병목 현상을 만들어냅니다. 팀들은 종종 이러한 중앙집중화를 피하기 위해 실수로 데이터 결정을 가속화하는 사일로를 만듭니다. 그러나, 이는 데이터 사용자가 적시에 관련성 있는 정확한 데이터를 얻는 것을 방해합니다. 또한, 중앙집중식 데이터 및 AI 팀은 도메인 데이터셋에 대한 독특한 맥락을 제한적으로 이해하므로, 의미 있는 데이터 제품에 대한 기회를 놓치게 됩니다.
데이터의 양과 가치가 계속 증가함에 따라, 중앙집중식 데이터 및 AI 팀은 종종 수요를 따라잡지 못하게 됩니다. 이로 인해 팀이 과부하가 걸리고, 비즈니스 사용자가 필요한 데이터에 접근하고 사용하는 것을 방해하며, 조직이 데이터의 전체 가치를 실현하는 것을 방해합니다.
데이터 메시에서는 데이터 관리가 분산되어 도메인 전문가의 손에 넘겨집니다. 이들은 자신이 다루는 데이터를 이해합니다. 이로 인해 여러 가지 이점이 생깁니다:
데이터 메시를 만들기 위해서는, 조직이 다음과 같은 요소를 갖추어야 합니다:
Databricks 데이터 인텔리전스 플랫폼 은 조직이 데이터 메시 아키텍처를 채택하고 데이터 관리 접근 방식을 현대화하기 위한 기술적 기반을 제공합니다. Databricks는 성능과 기능이 데이터 웨어하우스 와 현대적인 데이터 레이크의 저비용 유연성 및 확장성을 결합한 클라우드 네이티브 데이터, 분석 및 AI 플랫폼입니다. 그것의 개방형 아키텍처는 데이터가 어떻게 구성되고 구조화되는지에 대한 유연성을 제공하면서, 데이터와 분석 작업량에 걸쳐 통합된 관리 인프라를 제공합니다.
Databricks 플랫폼은 도메인 중심의 데이터 메시를 지원하는 작업 공간이라는 단위로 구성됩니다. Databricks는 여러 작업 공간을 지원하며, 각각이 하나 이상의 도메인에 해당합니다. 각각은 지역적으로 소유하고 관리되며 협업을 위한 홈으로 작용합니다. 작업 공간 내에서 도메인은 조직 전체의 자체 서비스 인프라를 사용하여 데이터 제품을 관리할 수 있습니다.
Databricks는 데이터 관리와 처리를 위한 도구를 제공합니다. 이는 배치 및 스트리밍 데이터 처리를 모두 허용하여 사용자가 데이터 제품을 보다 효율적으로 생성하고 관리할 수 있게 합니다. 또한 테이블 저장 형식을 통합하여 각 도메인이 선호하는 형식을 사용하면서 데이터 저장 및 메타데이터 관리에 대한 통합된 접근 방식을 유지할 수 있습니다.
Databricks의 Unity Catalog, 데이터와 AI를 위한 유일한 통합 및 오픈 데이터 거버넌스 솔루션은 데이터 메시에 있어 중요합니다. Unity 카탈로그는 거버넌스, 보안, 사용자 관리 및 메타데이터를 작업 공간 간에 통합하여 중앙 집중식 관리를 가능하게 합니다. 발견성 및 계보와 같은 데이터 카탈로그 기능을 제공하며, 세분화된 접근 제어 및 감사 로깅의 시행을 보장합니다. 보안 및 접근 제어는 한 번만 관리되므로 데이터 거버넌스를 단순화합니다. Unity Catalog는 데이터를 카탈로그로 구성하여, 도메인 특정 데이터 제품의 관리를 허용합니다.
Databricks는 또한 내부 및 외부 도메인 간의 협업을 지원하기 위해 엔터프라이즈 등급의 상호 운용 가능한 데이터 공유를 제공합니다. Delta Sharing 은 컴퓨팅 플랫폼이나 클라우드 지역에 상관없이 조직이 데이터를 안전하게 공유할 수 있게 합니다. Delta Sharing은 데이터 마켓플레이스를 통해 데이터를 게시하거나 획득하는 등의 다양한 외부 데이터 공유 활동의 기반이 됩니다.
Unity Catalog와 Delta Sharing을 통해 Databricks는 조직에 데이터와 분석을 대규모로 조직하고 관리하는 유연성을 제공합니다. 데이터는 데이터 메시 또는 다중 테넌트 아키텍처에서 조직될 수 있으며, 중앙 집중식 및 분산 데이터 관리 솔루션을 모두 지원합니다.
데이터 메시 아키텍처는 기업에게 데이터를 접근하고 그 가치를 완전히 활용하는 새로운 방법을 제공합니다. Databricks는 보장된 상호 운용성, 비용 효율성, 거버넌스, 단순성을 가진 이 비전을 실현하기 위한 개방적이고 확장 가능한 기반을 제공합니다.
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.