주요 컨텐츠로 이동
솔루션

Cloudflare R2 통합을 지원하는 Delta Sharing 퍼블릭 프리뷰 발표

여러 클라우드 간의 데이터 공유 비용과 복잡성 최소화

작성자: Tianyi Huang, 지젤 고이코체아, Philip Jones , Harshal Brahmbhatt

Delta Sharing이 에이전트 스킬(Agent Skills), AI 모델, 비정형 데이터를 포함한 AI 자산을 안전하게 공유하기 위한 최초의 개방형 공급업체 중립적 프로토콜인 OpenSharing으로 발전했습니다. 발표 내용을 읽어보세요.

이 블로그에 기여해 주신 Cloudflare의 시니어 프로덕트 매니저 Phillip Jones와 시스템 엔지니어 Harshal Brahmbhatt에게 특별히 감사드립니다.

다양한 산업 분야의 조직들은 클라우드나 리전에 관계없이 단일화된 통합 방식으로 데이터와 AI 자산을 공유하기를 원합니다. 하지만 많은 조직이 플랫폼 호환성 문제와 한계, 높은 이그레스(egress) 비용, 거버넌스 및 보안 부족 등의 문제에 직면하여 고객, 팀, 파트너와 데이터를 공유하는 데 여전히 어려움을 겪고 있습니다. Databricks와 Linux Foundation은 안전한 데이터 공유를 위한 최초의 개방형 접근 방식인 Delta Sharing을 개발했습니다. 고객들은 복제할 필요 없이 플랫폼, 클라우드, 리전 간에 데이터를 쉽고 안전하게 공유하기 위해 Delta Sharing을 사용해 왔습니다.

오늘, 클라우드와 리전 간에 데이터를 공유하는 고객들이 이그레스 비용을 절감할 수 있도록 지원하는 Cloudflare R2가 통합된 Delta Sharing의 퍼블릭 프리뷰(Public Preview) 출시 소식을 기쁘게 발표합니다. 이제 Databricks는 Cloudflare의 이그레스 비용이 없는 분산 객체 스토리지 제품인 Cloudflare R2에서의 Delta Sharing을 지원합니다. 양사 공동 고객은 이제 리전 간 비용이 많이 드는 복제 작업이나 특정 공급업체에의 종속(vendor lock-in) 없이 이그레스 수수료 제로(0)의 혜택을 누릴 수 있습니다.

Cloudflare와의 전략적 파트너십

Databricks는 Cloudflare와 파트너십을 맺고 조직이 클라우드나 리전에 관계없이 단일 통합 방식으로 고객 및 파트너와 데이터를 공유할 수 있도록 지원합니다. Cloudflare R2는 Cloudflare가 제공하는 이그레스 비용이 없는 분산 스토리지로, 고객이 보안과 개인정보 보호를 타협하지 않으면서 파트너, 공급업체, 현업 부서(LOB)와 가장 최신의 데이터 세트를 공유할 수 있도록 지원합니다.

Cloudflare의 공동 창립자이자 CEO인 Matthew Prince는 이번 파트너십의 가치에 대해 다음과 같이 설명했습니다. "Cloudflare의 거대한 글로벌 네트워크 및 이그레스 비용 없는 스토리지와 Databricks의 강력한 공유 및 처리 기능이 결합되어, 양사 공동 고객에게 전 세계에서 가장 빠르고 안전하며 경제적인 데이터 공유 기능을 제공할 것입니다."

Cloudflare R2와 함께 Delta Sharing을 사용하면 고객은 데이터와 AI(실시간 데이터 세트, 모델, 노트북)를 이동하고 사용할 위치를 직접 제어할 수 있으며, 복제할 필요 없이 플랫폼, 클라우드, 리전 전반에 걸쳐 최신 데이터를 공유할 수 있습니다. 이 모든 과정에서 이그레스 비용이 전혀 발생하지 않고, 특정 공급업체에 종속되지 않으며, 보안과 거버넌스도 유지됩니다.

"Cloudflare의 거대한 글로벌 네트워크 및 이그레스 비용 없는 스토리지와 Databricks의 강력한 공유 및 처리 기능이 결합되어, 양사 공동 고객에게 전 세계에서 가장 빠르고 안전하며 경제적인 데이터 공유 기능을 제공할 것입니다." — Matthew Prince, Cloudflare 공동 창립자 겸 CEO

“Delta Sharing은 다양한 컴퓨팅 플랫폼, 클라우드, 리전 간에 데이터를 공유하기 위한 최초의 개방형 프로토콜을 제공합니다. 이번 협력이 개방형 상호 교환을 촉진하고 모든 고객이 더 쉽게 협업할 수 있도록 도울 것이라는 점에서 매우 기대가 큽니다.”라고 Databricks의 공동 창립자이자 CTO인 Matei Zaharia는 설명했습니다.

"Delta Sharing은 다양한 컴퓨팅 플랫폼, 클라우드, 리전 간에 데이터를 공유하기 위한 최초의 개방형 프로토콜을 제공합니다. 이번 협력이 개방형 상호 교환을 촉진하고 모든 고객이 더 쉽게 협업할 수 있도록 도울 것이라는 점에서 매우 기대가 큽니다." — Matei Zaharia, Databricks 공동 창립자 겸 CTO

Allium, Delta Sharing과 Cloudflare R2를 사용하여 연간 최대 645,000달러 절감

지난 15년 동안 금융 산업은 블록체인 기술의 도입과 다양한 산업 분야에서의 암호화폐 사용으로 큰 변화를 겪었습니다. 이러한 발전은 퍼블릭 블록체인으로부터 점점 더 많은 트랜잭션 데이터를 생성해 냈으며, 투자자와 트레이더는 이를 통해 중요한 실시간 인사이트를 얻을 수 있게 되었습니다.

Allium은 빠르고 정확한 블록체인 데이터를 갖춘 간편한 데이터 플랫폼을 제공하는 Databricks 고객사입니다. 이들은 금융 기관부터 크립토 네이티브 기업에 이르기까지 다양한 고객이 데이터의 잠재력을 최대한 활용할 수 있도록 지원합니다. Allium은 전용 데이터 인프라와 함께 관리형 블록체인 데이터베이스, 강화된 데이터 스키마, 실시간 알림 기능 등의 제품을 제공합니다. 이들은 EVM 및 Bitcoin을 포함한 15개의 블록체인, 100개 이상의 스키마, 250TB 이상의 데이터 규모를 지원하여 트레이더를 위한 회계 및 감사부터 NFT 마켓플레이스를 위한 가장매매(wash trading) 필터링에 이르기까지 온갖 종류의 크립토 애플리케이션을 지원하는 업계 선두 주자입니다. Allium은 고객이 어떤 데이터 환경에 있든 고객의 요구 사항을 충족하며, 그 결과 지난 분기에는 월간 1PB 이상의 데이터 전송을 기록했습니다. 이 규모는 최근 ETF 낙관론에 힘입은 암호화폐 시장 회복세에 따라 계속해서 급증하고 있습니다.

데이터 전송량의 엄청난 증가는 Allium의 빠른 비즈니스 성장에 기여했지만, 동시에 수익성 측면에서 중요한 과제를 안겨주었습니다. 바로 고객의 요구를 충족하면서도 비용 효율적인 데이터 스토리지 및 공유 솔루션을 구축하는 방법이었습니다. 구체적으로, 클라우드와 리전을 넘어 어떤 위치에 있는 고객에게든 데이터를 공유하면서 클라우드 공급업체로부터 발생하는 비싼 데이터 이그레스 비용을 어떻게 최소화할 수 있을지가 관건이었습니다.

Delta Sharing과 Cloudflare R2의 공동 솔루션을 도입하기 전에 Allium은 다른 플랫폼을 구현해 보았으나, 1PB 데이터 이그레스에 대해 매월 약 53,800달러, 연간 총 645,000달러에 달하는 예상 비용이 발생하여 감당하기 어려울 정도로 비싸다는 것을 알게 되었습니다.

“처음에는 Snowflake의 복제 시스템을 활용했지만 제어력이 부족하고 비용이 많이 들었습니다. Snowflake에서는 서로 다른 리전에 데이터를 제공하려면 해당 리전에 데이터를 복제해야 하므로, 많은 스토리지 비용과 일부 이그레스 비용이 자동으로 발생합니다. 저희 규모에서 빈번하게 발생하는 운영 스키마 변경 시 이 비용은 기하급수적으로 증가합니다.”라고 Allium의 공동 창립자이자 CEO인 Ethan Chan은 설명합니다.

"Snowflake에서는 서로 다른 리전에 데이터를 제공하려면 해당 리전에 데이터를 복제해야 하므로, 많은 스토리지 비용과 일부 이그레스 비용이 자동으로 발생합니다. 저희 규모에서 빈번하게 발생하는 운영 스키마 변경 시 이 비용은 기하급수적으로 증가합니다." — Ethan Chan, Allium 공동 창립자 겸 CEO

Delta Sharing과 Cloudflare R2의 결합은 Allium에 비용이 많이 들고 복잡한 복제 작업이나 특정 공급업체 종속 없이도 비용 효율적이고 안전한 데이터 공유 솔루션을 제공했습니다. Allium은 이제 Delta Sharing의 멀티클라우드 지원을 통해 데이터를 이동하고 사용할 위치를 직접 제어할 수 있게 되었으며, Cloudflare R2로 클라우드 스토리지를 통합하여 차세대 데이터 공유 플랫폼을 구축했습니다.

Chan은 다음과 같이 설명합니다. "Delta Sharing과 Cloudflare R2를 함께 결합함으로써 고객에게 안정적이고 비용 효율적으로 데이터를 전달할 수 있게 되었습니다. 스토리지 및 이그레스 비용을 최소화하여 연간 최대 645,000달러를 절감하는 동시에, 고객이 선호하는 환경에서 최고 품질의 블록체인 데이터를 제공합니다. 또한 이를 통해 서비스를 지속 가능한 방식으로 확장할 수 있는 제어력과 보안을 모두 확보할 수 있습니다."

Allium은 추가 복사본을 만들지 않고 Parquet 테이블 형식을 원활하게 통합하는 방법인 Delta UniForm(Delta Lake Universal Format)을 사용하여 블록체인 데이터를 영구 보존함으로써 이 통합을 통해 비용 절감을 극대화하고 있습니다(아래 다이어그램 참조). Allium은 Cloudflare R2에 저장된 데이터를 읽는 Apache Iceberg 및 Delta 커넥터를 활성화합니다. 또한 Delta Sharing을 구현하여 아웃바운드 전송에 대한 이그레스 비용 없이 리전과 플랫폼 간에 데이터를 원활하고 안전하게 공유합니다.

"Delta Sharing과 Cloudflare R2를 함께 결합함으로써 고객에게 안정적이고 비용 효율적으로 데이터를 전달할 수 있게 되었습니다. 스토리지 및 이그레스 비용을 최소화하여 연간 최대 645,000달러를 절감하는 동시에, 고객이 선호하는 환경에서 최고 품질의 블록체인 데이터를 제공합니다." — Ethan Chan, Co-Founder and CEO of Allium

Allium 데이터 플랫폼

Allium은 최근 제품 라인을 확장하여 현재 Ethereum Realtime Data를 공유하게 되었으며, 이는 현재 Databricks Marketplace에 등록되어 있습니다. 이 데이터 세트는 암호화폐 분야의 사용자들이 이더리움의 동향에 대한 가치 있는 인사이트를 공유할 수 있도록 지원합니다. 구매 가능한 이 데이터 세트에는 스마트 계약, NFT 및 탈중앙화 금융(DeFi) 시장 등을 포함하여 이더리움 블록체인에 대한 다양한 세부 정보가 포함되어 있습니다.

주요 산업별 활용 사례

Delta Sharing 및 Cloudflare R2를 사용하여 이점을 얻을 수 있는 또 다른 고객 유형의 예로는 흔히 사용되는 '허브 앤 스포크(hub and spoke)' 아키텍처 패턴을 사용하는 데이터 애그리게이터(data aggregator)가 있습니다. 데이터 애그리게이터는 다양한 소스의 데이터를 수집하고 병합하여 통일되고 일관된 데이터 세트로 만드는 것을 전문으로 합니다. '허브 앤 스포크' 데이터 공유 시나리오는 일대다(one-to-many) 방식으로 정의되며, 한 조직이 여러 클라이언트와 공유합니다. 이러한 데이터 애그리게이터는 다양한 지역, 클라우드 및 플랫폼에 걸쳐 여러 클라이언트에게 데이터 세트를 수집, 병합 및 공유하는 데 특화되어 있습니다. 하지만 이러한 조직은 비용 효율적이고 예측 가능한 방식으로 데이터 공유를 확장하는 방법이라는 공통된 과제에 직면해 있습니다. 이상적으로는 규모의 경제를 통해 클라이언트 수가 증가하더라도 공유 비용은 미미하게만 증가하는 혜택을 누릴 수 있어야 합니다. 또한 비용 절감을 위해 클라이언트가 데이터 복제를 도입하는 것에 의존하지 않고, 예측 가능한 방식으로 비용 관리를 전적으로 제어하기를 원합니다.

일반적으로 데이터 애그리게이터를 사용하는 산업으로는 금융 서비스, 헬스케어 및 생명 과학, 미디어 및 엔터테인먼트 등이 있습니다. 데이터 공유는 의사 결정, 시장 분석, 연구 및 전반적인 비즈니스 운영 지원과 같은 중요한 비즈니스 요구 사항을 추진하는 데 도움이 됩니다. 예를 들어, 데이터 애그리게이터는 사용자의 금융 정보에 안전하게 액세스하고 분석함으로써 예산 관리 앱, 투자 플랫폼, 대출 솔루션 등 다양한 금융 애플리케이션과 서비스를 구동하는 데 중요한 역할을 합니다. 산업별 구체적인 활용 사례는 아래 표를 참조하세요.

산업데이터 애그리게이터 활용 사례활용 사례 상세 정보
미디어 및 엔터테인먼트콘텐츠 아카이빙애그리게이터를 사용하여 콘텐츠를 체계적으로 아카이빙할 수 있으며, 이를 통해 미디어 기업은 파트너 및 고객과 콘텐츠를 더 쉽게 공유하여 새로운 오디언스나 플랫폼을 위해 기존 콘텐츠에 액세스하고 재활용할 수 있습니다.
금융 서비스신용 평가 및 리스크 평가데이터 애그리게이터는 소비 패턴, 소득 수준, 부채 상환 의무 등 사용자의 금융 행동에 대한 인사이트를 제공합니다. 이 정보는 공유되어 대출 기관과 금융 기관이 신용 리스크를 평가하고 전반적인 신용 등급을 기반으로 대출 결정을 내리는 데 사용할 수 있습니다.
헬스케어 및 생명 과학상업적 유효성헬스케어 데이터 애그리게이터는 병원, 의료 제공자, 제약 회사 및 연구 기관에 임상 처방 데이터를 제공하여 다양한 방식으로 분석하고 활용할 수 있도록 합니다. 여기에는 진입할 새로운 시장 식별, 판매 채널 동향 측정, 소매 약국이나 병원의 구매 패턴 분석 등이 포함될 수 있습니다.

비용 절감액 계산 및 공동 솔루션 도입 시기

클라우드 아웃바운드 전송(egress) 비용은 일반적으로 데이터 공유에서 쿼리되는 데이터의 양에 비례하여 증가합니다. 아래 다이어그램은 쿼리 수(및 데이터 양)가 증가함에 따라 egress 비용도 증가함을 보여줍니다. 고객은 이 방식을 사용하여 다양한 스토리지 솔루션을 비교하고, egress 비용이 발생하지 않는 Cloudflare R2 솔루션 사용의 비용 대비 효과를 정량화할 수 있습니다. 아래 다이어그램에서 강조하듯이, Cloudflare R2 솔루션은 다른 클라우드 스토리지 솔루션에 비해 상당한 비용 절감 효과를 가져다줄 수 있습니다.

예를 들어, 표준 가격 책정 가정을 기반으로 한 아래 분석에 따르면, 월별 데이터 전송 활동이 서로 다른 클라우드 간에 26%를 초과하거나 리전 간에 85%를 초과하는 데이터 자산은 스토리지 및 egress 비용 모두에서 매월 상당한 비용 절감 혜택을 누릴 수 있습니다.1

데이터 전송

Delta Sharing 및 Cloudflare R2 체험하기

Delta Sharing 및 Cloudflare R2는 현재 퍼블릭 프리뷰(Public Preview)로 제공됩니다. 공동 솔루션을 구현하기 위해 모든 데이터를 Cloudflare R2로 마이그레이션할 필요는 없습니다(관련 블로그 Architecting Global Data Collaboration with Delta Sharing 참조). 아래 다이어그램에 표시된 간단한 3단계에 따라 공유 데이터를 R2에 한 번만 복제하면 됩니다.

  1. Cloudflare R2를 외부 스토리지 위치로 추가합니다
  2. Cloudflare R2에서 새 테이블, 볼륨 또는 ML 모델을 생성하고, Deep Clone을 사용하여 데이터를 점진적으로 동기화합니다
  3. 평소와 같이 R2 테이블에서 Delta Share를 생성합니다

글로벌 데이터 애그리게이터 Delta Sharing 모델

자세한 내용은 기술 문서를 참조하세요. 질문이나 의견이 있으시면 저희 팀(datacollaboration@databricks.com)으로 피드백을 보내주시기 바랍니다.

Cloudflare R2와 함께 Delta Sharing을 사용하면 이제 egress 비용 없이, 벤더 종속(lock-in) 없이, 보안 및 거버넌스를 타협하지 않으면서 플랫폼, 클라우드 및 리전 간에 데이터와 AI를 공유하는 새로운 접근 방식의 혜택을 누릴 수 있습니다.

최신 리소스를 통해 데이터 협업 전략에 Delta Sharing을 통합하는 방법에 대해 자세히 알아보세요:

1 비용 절감 계산은 매월 데이터의 10%가 업데이트되고, 원본 복사본은 S3에 유지하면서 공유 목적으로 데이터를 Cloudflare R2에 복제한다는 가정을 바탕으로 합니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.