작성자: Matei Zaharia, 셀리아 쿵, 샤오퉁 쑨, 스티브 마호니, 이타이 와이스, 사친 타쿠르 , 제이 반카리아
Delta Sharing이 에이전트 스킬, AI 모델, 비정형 데이터를 포함한 AI 자산을 안전하게 공유하기 위한 최초의 개방형 벤더 중립적 프로토콜인 OpenSharing으로 발전했습니다. 발표 내용을 확인해 보세요.
오늘 Delta Sharing이 AWS 및 Azure에서 정식 출시(GA)되었다는 기쁜 소식을 전해드립니다. 이번 GA 출시를 통해 Databricks Lakehouse Platform 상의 미션 크리티컬한 워크로드에 대해 Databricks가 제공하는 최고 수준의 안정성, 기술 지원 및 엔터프라이즈 준비성을 경험하실 수 있습니다.
이 블로그에서는 여러 조직이 데이터의 비즈니스 가치를 극대화하기 위해 Delta Sharing을 활용하는 방법, GA 버전에 포함된 몇 가지 주요 기능, 그리고 Databricks Lakehouse Platform에서 Delta Sharing을 시작하는 방법을 살펴봅니다.
기업들이 고객, 파트너, 공급업체 및 내부 현업 부서(LOB)와 쉽고 안전하게 데이터를 교환하여 협업을 강화하고 데이터 가치를 창출하고자 함에 따라, 디지털 경제에서 데이터 공유의 중요성이 더욱 커지고 있습니다. 그러나 표준 기반 데이터 공유 프로토콜의 부재로 인해 기존 솔루션들은 특정 벤더나 상용 제품에 종속되어 벤더 록인(lock-in) 위험을 초래했습니다. 이러한 고객의 어려움을 해결하기 위해 Databricks는 개방형 데이터 공유 솔루션인 Delta Sharing을 개발하게 되었습니다.
Delta Sharing은 레이크하우스의 실시간 데이터를 모든 컴퓨팅 플랫폼으로 안전하게 공유할 수 있는 개방형 솔루션을 제공합니다. 데이터 수신자는 Databricks Lakehouse Platform을 사용하지 않아도 되며, 동일한 클라우드나 심지어 클라우드 환경이 아니어도 상관없습니다. 데이터 제공자는 다른 시스템으로 데이터 세트를 복제하거나 복사할 필요 없이 Apache Parquet 또는 Delta Lake 형식을 기반으로 기존 대규모 데이터 세트를 공유할 수 있습니다. 데이터 수신자는 항상 최신 버전의 데이터에 액세스하여 원하는 도구로 공유 데이터를 쿼리, 시각화, 변환, 수집 또는 보강할 수 있으므로 가치 창출 시간(time-to-value)을 단축할 수 있습니다. 거버넌스와 보안은 많은 조직의 주요 관심사이기 때문에, Delta Sharing은 Unity Catalog과 기본적으로 통합되어 단일 플랫폼에서 공유 데이터의 사용을 관리, 제어, 감사 및 추적할 수 있도록 지원합니다.
지난해 프라이빗 프리뷰로 Delta Sharing을 출시한 이후 수백 개의 고객사가 Delta Sharing을 도입했으며, 현재 수 페타바이트의 데이터가 Delta Sharing을 통해 공유되고 있습니다.
Nasdaq: "Delta Sharing은 대규모 데이터 세트에 대한 데이터 전달 프로세스를 간소화하는 데 큰 도움이 되었습니다. 덕분에 고객은 통합 작업이 거의 없이 자체 컴퓨팅 환경을 활용해 정제된 최신 데이터를 읽을 수 있게 되었으며, 저희는 독창적이고 고품질인 데이터 제품 카탈로그를 계속 확장할 수 있게 되었습니다." - 윌리엄 데이그(William Dague), 대체 데이터 부문 총괄
Shell: "우리는 데이터의 개방성이 쉘(Shell)의 탄소 넷제로(Carbon Net Zero) 목표를 달성하는 데 핵심적인 역할을 할 것임을 잘 알고 있습니다. Delta Sharing은 파트너가 동일한 데이터 공유 플랫폼을 사용하지 않고도 공동의 목표를 향해 협력할 수 있도록, 방대한 양의 데이터를 쉽고 안전하게 공유할 수 있는 표준화되고 통제된 보안 프로토콜을 제공합니다." - 브라이스 바트만(Bryce Bartmann), 수석 디지털 기술 고문
SafeGraph: "데이터 기업으로서 고객에게 당사의 데이터 세트에 대한 액세스를 제공하는 것은 매우 중요합니다. Delta Sharing을 탑재한 Databricks Lakehouse Platform은 이 프로세스를 크게 간소화하여, 클라우드나 플랫폼에 관계없이 훨씬 더 광범위한 사용자층에 안전하게 도달할 수 있도록 해줍니다." - 펠릭스 청(Felix Cheung), 엔지니어링 부문 VP
YipitData: "Delta Sharing을 통해 당사 고객들은 정제된 데이터 세트에 거의 즉각적으로 액세스하고 이를 원하는 분석 도구와 통합할 수 있습니다. 이를 통해 고객과의 대화는 데이터 수집에 대한 소모적이고 기술적인 논의에서 벗어나, 성공적인 고객 경험을 이끌어내는 고가치 분석 토론으로 전환됩니다. 고객과의 관계가 발전함에 따라, Delta Sharing을 통해 새로운 데이터 세트를 원활하게 전달하고 기존 데이터 세트를 업데이트하여 고객이 업계의 핵심 트렌드를 파악할 수 있도록 지원할 수 있습니다." - 아눕 세구(Anup Segu), 데이터 엔지니어링 기술 리드
Pumpjack Dataworks: "Databricks의 강력한 Delta Sharing 기능을 활용함으로써 Pumpjack Dataworks는 더 빠른 온보딩 경험을 제공하고 데이터 내보내기, 가져오기 및 리모델링의 필요성을 제거하여 고객에게 즉각적인 가치를 제공할 수 있게 되었습니다. 더 빠른 결과는 고객과 파트너에게 더 큰 비즈니스 기회를 가져다줍니다." - 코리 즈와트(Corey Zwart), 최고 기술 책임자(CTO)
이번 GA 출시에는 Delta Sharing의 수많은 놀라운 기능들이 포함되어 있지만, 그 중에서도 이번 버전에 탑재된 몇 가지 핵심 기능을 아래에 소개해 드립니다.
Databricks 고객에게 Delta Sharing은 레이크하우스에서의 데이터 공유를 매우 간단하고 효율적이며 안전하게 만들어 줍니다. 단 몇 번의 UI 클릭이나 SQL 명령만으로 데이터 제공자는 데이터를 복제하지 않고도 Databricks를 사용하는 수신자와 기존 데이터를 쉽게 공유할 수 있습니다. 예를 들어, AWS에서 Databricks를 사용하는 데이터 제공자가 Azure에서 Databricks를 사용하는 수신자와 기존 데이터를 공유하거나 그 반대의 경우도 가능합니다. 자세한 내용은 사용자 가이드에서 확인하실 수 있습니다. Databricks 간 공유에서는 데이터 제공자가 Databricks를 사용하는 수신자를 위해 토큰 자격 증명을 관리할 필요가 없습니다. 공유 연결은 Databricks 플랫폼을 통해 안전하게 설정됩니다. 로그인할 Databricks 계정만 있으면 나머지는 플랫폼이 알아서 처리합니다. 교차 계정 데이터 공유 외에도 또 다른 중요한 사용 사례는 내부 데이터 공유입니다. 동일한 계정 하에 서로 다른 리전에 여러 개의 Unity Catalog 메타스토어가 있는 경우, 데이터를 복사하지 않고 Delta Sharing을 사용하여 이러한 메타스토어 간에 데이터를 쉽게 공유할 수 있습니다. 데이터 제공자 관점에서의 SQL 워크플로우 예시:
데이터 수신자 관점에서의 SQL 워크플로우 예시:
이제 Delta Sharing에서 Change Data Feed(CDF) 공유를 지원합니다. 데이터 제공자는 테이블 공유 외에도 테이블의 CDF를 포함하도록 선택할 수 있으며, 이를 통해 수신자는 테이블의 특정 버전 또는 타임스탬프 간의 변경 사항을 쿼리할 수 있습니다. 이 기능을 사용하면 수신자는 매번 전체 테이블을 조회하는 대신 새로운 데이터나 증분 변경 사항만 쿼리할 수 있습니다. 데이터 제공자는 CDF가 포함된 테이블을 쉽게 공유할 수 있으며, 데이터 수신자는 간단한 구문으로 테이블 변경 사항을 쿼리할 수 있습니다:
Delta Sharing의 GA 출시 버전에는 공유를 더욱 안전하게 만들기 위한 일련의 보안 기능도 포함되어 있습니다. 이러한 보안 기능의 한 예로 IP Access List가 있습니다. 이제 데이터 제공자는 오픈 커넥터를 사용하는 각 수신자에 대해 IP 액세스 목록을 구성할 수 있습니다. 이를 통해 자격 증명 다운로드 및 데이터 액세스가 대상 IP 주소에서만 시작되도록 보장합니다. 또한 몇 가지 Delta Sharing 관련 권한(예: CREATE SHARE, CREATE RECIPIENT)을 추가하고 Share 및 Recipient와 같은 Delta Sharing 개체에 대한 owner 개념을 도입했습니다. 이러한 기본 요소를 통해 Databricks의 Delta Sharing은 더욱 유연한 액세스 제어 모델을 제공하며, 관리자가 아닌 사용자도 공유 작업을 수행할 수 있습니다.
아래 데모를 시청하여 Delta Sharing을 통해 레이크하우스의 라이브 데이터를 모든 컴퓨팅 플랫 폼에 원활하게 공유하는 방법에 대해 자세히 알아보세요.
이미 Databricks 고객이시라면, 가이드를 따라 시작해 보세요 (AWS | Azure). 이번 GA 릴리스에 포함된 내용에 대해 자세히 알아보려면 릴리스 노트를 읽어보세요. 아직 Databricks 고객이 아니시라면, 프리미엄 또는 엔터프라이즈 워크스페이스로 무료 체험판을 신청해 보세요.(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
블로그를 구독하고 최신 게시물을 이메일로 받아보세요.