주요 컨텐츠로 이동

Delta Sharing을 사용한 베스트 데이터 공유 사용 사례 3가지

Data Intelligence Platforms

Published: January 14, 2022

제품Less than a minute

업데이트: 이제 AWS 및 Azure에서 Delta Sharing 을 정식으로 사용할 수 있습니다.

 

모든 규모의 기업이 고객, 공급업체 및 파트너와 안전하게 데이터를 교환하여 비즈니스 가치를 창출하고자 함에 따라 데이터 공유는 필수적인 요소가 되었습니다. 최근 Gartner 설문조사에 따르면 Data Sharing을 촉진하는 조직은 대부분의 비즈니스 가치 지표에서 동종 업계의 다른 조직보다 뛰어난 성과를 거둘 것입니다.

기존 데이터 공유 솔루션에는 조직 내 또는 조직 간 데이터 공유를 제한하고 데이터의 진정한 가치를 실현하지 못하게 하는 다양한 문제가 있습니다. 지난 30년 동안 Data Sharing 솔루션은 자체 개발 솔루션 또는 타사 상용 솔루션이라는 두 가지 형태로 제공되었습니다. 자체 개발 솔루션의 경우 Data Sharing은 SFTP 및 REST APIs와 같은 레거시 기술을 기반으로 구축되었으며, 새로운 데이터 요구 사항에 따라 관리, 유지 관리 또는 확장하기가 어려워졌습니다. 반면 상용 Data Sharing 솔루션은 동일한 플랫폼을 활용하는 다른 사용자와만 데이터를 공유할 수 있도록 허용하므로 Data Sharing이 제한되고 비용이 많이 들 수 있습니다.

이러한 과제로 인해 Databricks는 데이터 공유의 미래를 개방형으로 다시 생각하게 되었습니다. Data + AI Summit 2021에서 저희는 안전하고 확장 가능한 실시간 데이터 공유를 위한 세계 최초의 개방형 프로토콜인 Delta Sharing을 발표했습니다. Delta Sharing에 담긴 저희의 비전은 데이터가 상주하거나 소비되는 플랫폼에 관계없이 조직 간의 안전한 실시간 데이터 공유를 간소화하는 데이터 공유 솔루션을 구축하는 것입니다. Delta Sharing을 사용하면 기업은 데이터를 이동하지 않고도 Apache Parquet 및 Delta Lake 형식을 기반으로 하는 기존의 대규모 데이터세트를 쉽게 공유할 수 있으며, 데이터 팀이 원하는 도구를 사용하여 공유 데이터를 query, 시각화, 보강할 수 있는 유연성을 제공합니다.

Delta Sharing 생태계
Delta Sharing 생태계

프라이빗 프리뷰 출시 이후, 다양한 산업의 고객들이 목적에 적합하고 모두에게 개방된 데이터 공유 솔루션을 협력하여 개발하는 데 엄청난 참여를 보여주셨습니다. 고객들은 이미 Delta Sharing을 사용하여 페타바이트 규모의 데이터를 공유했습니다. 발표 이후 Delta Sharing 파트너 생태계도 성장했으며, PowerBI, Pandas, Apache Spark™와 같은 상용 및 오픈 소스 클라이언트에 Delta Sharing 커넥터가 내장되어 있으며 곧 더 많은 커넥터가 출시될 예정입니다.

고객과의 대화를 통해 저희는 데이터 상용화, 외부 파트너 및 고객과의 데이터 공유, 사업 부문 데이터 공유라는 세 가지 일반적인 사용 사례를 확인했습니다. 이 블로그 게시물에서는 각각의 주요 사용 사례를 살펴보고 고객으로부터 듣고 있는 몇 가지 인사이트를 공유합니다.

사용 사례 1: 데이터 상용화

고객 사례: 한 금융 데이터 공급업체는 레거시 데이터 전송 채널의 운영 비효율성을 줄이고 최종 고객이 대규모의 새로운 데이터세트에 원활하게 액세스할 수 있도록 지원하는 데 관심이 있었습니다.

과제

최근 데이터 제공업체는 정기적으로 테라바이트 규모의 데이터가 생성되는 대규모의 새로운 텍스트 데이터 세트를 출시했습니다. 데이터 수신자가 데이터 세트를 대량으로 수집하기 어려웠기 때문에 이러한 대용량 데이터 세트에 빠르고 쉽게 액세스를 제공하는 것은 데이터 제공업체에게 지속적인 과제였습니다. 현재 솔루션으로는 제공업체가 외부 SFTP 서버로 데이터를 복제해야 했는데, 여기에는 잠재적인 장애 지점이 많고 지연 시간이 늘어나는 문제가 있었습니다.

수신자 측에서는 데이터의 크기와 규모 때문에 이 데이터를 수집하고 관리하는 것이 쉽지 않았습니다. 데이터 수신자는 수집용 인프라를 설정해야 했고, 여기에는 IT 및 데이터베이스 관리자의 승인이 추가로 필요했습니다. 이로 인해 최종 소비자가 데이터를 사용하기 시작하기까지 몇 주 또는 그 이상 지연되었습니다.

Delta Sharing의 이점

Delta Sharing을 사용하면 데이터 공급업체는 이제 대규모 데이터세트를 원활하게 공유하고 SFTP 서버의 확장성 문제를 극복할 수 있습니다. SFTP로 일괄 추출해야 했던 이러한 테라바이트 규모의 대규모 텍스트 데이터 세트는 이제 Delta Sharing을 통해 실시간으로 액세스할 수 있습니다. 이제 공급업체는 데이터를 복제하는 대신 데이터 수신자에게 간단히 액세스 권한을 부여하고 관리하여 복잡성과 지연 시간을 줄일 수 있습니다. 확장성이 개선됨에 따라 데이터 소비자가 정기적으로 데이터 세트를 가져오는 대신 실시간 데이터에 액세스할 수 있게 되면서 데이터 공급업체의 고객 채택이 크게 증가하고 있습니다.

사용 사례 2: 외부 파트너/고객과의 Data Sharing

고객 사례: 한 대규모 소매업체는 파트너와 동일한 Data Sharing 또는 클라우드 컴퓨팅 플랫폼에 있지 않으면서도 제품 데이터(예: 시리얼 SKU 판매)를 파트너와 쉽게 공유해야 했습니다. 소매업체는 파트너가 실시간으로 관련 데이터에 쉽게 액세스할 수 있도록 SKU를 기반으로 파티션된 데이터세트를 생성하고 싶었습니다.

과제

한 유통업체는 파트너와 데이터를 공유하기 위해 자체 개발한 SFTP 및 APIs를 사용하고 있었는데, 이는 관리하기가 어려워졌습니다. 이 솔루션을 유지 관리하고 운영하는 데 상당한 양의 개발 리소스가 필요했습니다. 해당 유통업체는 다른 데이터 공유 솔루션을 검토했지만, 이러한 솔루션은 파트너가 동일한 플랫폼을 사용해야 했으며, 이는 비용 문제와 여러 지역에 걸쳐 데이터를 복제하는 데 따르는 운영 오버헤드로 인해 모든 당사자에게 실현 가능하지 않았습니다.

Delta Sharing의 이점

Delta Sharing은 소매업체가 여러 지역에 걸쳐 데이터를 복제할 필요 없이 여러 클라우드 플랫폼에서 데이터를 효율적으로 관리하고 공유할 수 있는 흥미로운 제안이었습니다. 이 소매업체는 Delta Sharing을 통해 100곳이 넘는 파트너를 위한 데이터 공유를 쉽게 관리, 생성, 감사할 수 있었습니다. 소매업체는 각 파트너에 대해 동일한 데이터 플랫폼을 사용할 필요 없이 파티션을 쉽게 만들고 데이터를 안전하게 공유할 수 있습니다. Delta Sharing은 공유 관리를 쉽게 할 뿐만 아니라 비용도 최소화합니다. 데이터 공급자는 기본 클라우드 공급자의 데이터 송신 비용만 발생시키고 Data Sharing에 대한 compute 요금은 지불할 필요가 없기 때문입니다.

사용 사례 3: 현업 부서와의 내부 Data Sharing

고객 사례: 한 제조업체는 15개 이상의 부서 및 자회사에 소속된 데이터 사이언티스트들이 예측 모델을 구축하기 위해 권한이 부여된 데이터에 액세스하기를 원합니다. 제조업체는 데이터 민감성 때문에 강력한 거버넌스, 제어 및 감사 기능을 사용하여 이를 수행하기를 원합니다.

과제

제조업체는 많은 데이터 레이크를 배포하고 있어 조직 전체의 팀이 데이터에 안전하고 효율적으로 액세스하기가 어렵습니다. 조직 전체에서 이 모든 데이터를 관리하는 작업이 맞춤형 방식으로 수행되며, 자격 및 거버넌스에 대한 강력한 통제 수단이 없습니다. 또한, 이러한 데이터 세트 중 상당수는 페타바이트 규모로, 이 데이터를 확장 가능한 방식으로 공유할 수 있는지에 대한 우려를 낳고 있습니다. 경영진은 적절한 데이터 액세스 제어 및 거버넌스 없이 데이터를 공유하는 것을 주저했습니다. 그 결과, 제조업체는 가치를 창출하고 데이터 과학 팀이 더 독창적인 인사이트를 얻을 수 있도록 할 특별한 기회를 놓치고 있었습니다.

Delta Sharing의 이점

Delta Sharing을 통해 제조업체는 이제 데이터를 이동할 필요 없이 서로 다른 내부 엔터티 간에 데이터를 거버넌스하고 공유할 수 있게 되었습니다. Delta Sharing을 통해 제조업체는 단일 적용 지점에서 공유 데이터에 대한 액세스를 부여, 추적, 감사할 수 있습니다. 이러한 대용량 데이터 세트를 이동할 필요가 없으므로 제조업체는 데이터 복제를 위해 여러 서비스를 관리하는 것에 대해 걱정할 필요가 없습니다. Delta Sharing을 통해 제조업체는 예상보다 훨씬 빠르게 데이터를 안전하게 공유할 수 있었고, 최종 사용자가 이전에는 사일로화되어 있던 고유한 데이터세트로 작업을 시작할 수 있게 되면서 즉각적인 이점을 얻을 수 있었습니다. 또한 제조업체는 데이터 시각화를 위해 선택한 도구인 PowerBI와 함께 기본 내장된 Delta Sharing 커넥터를 활용할 수 있다는 점에 기대를 걸고 있습니다.

Delta Sharing 시작하기

Delta Sharing을 사용하면 다른 조직에서 사용하는 데이터 플랫폼에 관계없이 데이터를 간단하게 공유할 수 있습니다. 데이터 팀이 조직 전체에서 데이터를 쉽게 공유하고 개인 정보 보호, 보안 및 규정 준수를 관리할 수 있도록 지원하며, 독점적인 종속 없이 개방적이고 안전한 솔루션을 제공하는 최초의 솔루션을 공유하게 되어 매우 기쁩니다.

Databricks에서 Delta Sharing을 사용해 보려면 Databricks 계정 담당자에게 문의하거나 가입 하여 얼리 액세스 권한을 얻으세요. 많은 고객에게 데이터 공유 시 거버넌스는 가장 중요한 고려 사항입니다. Delta Sharing은 Unity Catalog와 기본적으로 통합되어 있어 고객이 세분화된 거버넌스 및 보안 제어를 추가하여 내부 또는 외부에서 데이터를 쉽고 안전하게 공유할 수 있습니다. Databricks 계정에서 Unity Catalog를 활성화한 후, 아래의 빠른 시작 노트북을 사용해 Databricks에서 Delta Sharing을 시작해 보세요.

  1. 공유 생성 및 데이터 수신자에게 액세스 권한 부여
  2. 공유에 연결하고 데이터에 액세스하기

 

오픈 소스 Delta Sharing 릴리스를 사용해 보려면 delta.io/sharing의 지침을 따르세요.

Delta Sharing 오픈 소스 프로젝트에 참여하는 데 관심이 있으신가요?

Delta Sharing 프로젝트에 대한 피드백과 새로운 기능에 대한 아이디어나 기여를 기다리겠습니다. 여기의 지침에 따라 Delta Sharing 커뮤니티에 참여하세요.

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?

ETL and BI Migration Strategies

솔루션

January 27, 2025/1분 이내 소요

Databricks로의 마이그레이션 탐색: 아키텍처와 전략적 접근법

DeepSeek R1 on Databricks

공지사항

January 31, 2025/1분 이내 소요

DeepSeek R1 on Databricks