주요 컨텐츠로 이동

Delta Sharing 자주 묻는 질문 Top 10 답변 - 1부

가장 널리 채택된 개방형 공유 프로토콜인 Delta Sharing에 대한 상위 10가지 질문에 대한 답변을 확인해 보세요.

top 10 delta sharing questions answered part 1 og image

Summary

  • Delta Sharing을 사용하면 파일을 복사하지 않고도 실시간 데이터와 AI 자산을 공유할 수 있어 중복이 제거되고 수신자는 항상 최신 정보를 받아볼 수 있습니다.
  • 테이블, 뷰, Stream, 노트북, 모델 등을 공유할 수 있으며, Python, Spark, Power BI와 같은 일상적인 도구를 사용하여 누구나 데이터를 가져올 수 있습니다.
  • YoY 300%로 빠르게 성장하고 있으며 활성 공유의 40%가 Databricks 에코시스템 외부 사용자와 이루어지고 있어 개방형 크로스 플랫폼 데이터 공유 프로토콜로 작동함을 입증합니다.

Delta Sharing 은 활성 공유 수가 전년 대비 300% 증가하며 놀라운 성장세를 보이고 있습니다. 이는 단순한 일회성 파일 전송이 아니라, 실질적인 가치가 교환되고 있음을 증명하는 지속적인 협업을 의미합니다.

이러한 성장의 핵심 요인은 플랫폼의 개방형 철학입니다. Delta Sharing을 통해 고객은 모든 데이터 및 AI 자산을 누구와도 마찰 없이 공유할 수 있습니다.  Delta Sharing 활성 공유의 40%는 Databricks 생태계 외부의 수신자와 이루어집니다. 이는 Delta Sharing이 플랫폼과 클라우드를 아우르는 개방형 협업 에코시스템을 지원하고 있음을 보여줍니다.

이 게시물에서는 사람들이 Delta Sharing에 대해 가장 많이 묻는 질문 10가지를 정리했습니다. 개요, 차이점, 가장 일반적인 사용 사례, 시작하는 데 필요한 사항을 알아보려면 계속 읽어보세요.

1. Delta Sharing이란 무엇인가요?

Delta Sharing안전한 Data Sharing을 위해 가장 널리 채택된 개방형 프로토콜입니다. 조직이 플랫폼과 클라우드 전반에서 실시간 데이터 및 AI 자산을 교환할 수 있도록 지원합니다.

2. Delta Sharing의 차별점은 무엇인가요?

대부분의 공유 도구는 데이터를 새 대상으로 복사하도록 강요하여 오래된 사일로를 만들고 공격 표면을 확장합니다. Delta Sharing을 사용하면 소스에서 실시간 데이터를 읽을 수 있으므로 이동하거나 복제할 필요가 없습니다.

둘째로, Delta Sharing은 오픈 소스이므로 단일 생태계에 종속되지 않습니다. Databricks lakehouse나 다른 곳에서 공유할 수 있으며, 수신자는 Databricks 사용 여부와 관계없이 데이터를 사용할 수 있습니다.

마지막으로 수신자는 Python, Apache Spark, Java, Power BI 등 표준 개방형 커넥터를 통해 연결하여 귀하가 승인한 공유 테이블을 읽습니다.

종합적으로 Delta Sharing은 팀, 도구, 클라우드 전반에서 데이터와 AI를 위한 플랫폼 독립적인 협업을 제공합니다. 락인, 데이터 복제, 거버넌스 공백 없이 작업할 수 있습니다.

3. Delta Sharing은 Iceberg와 호환되나요? Apache Iceberg를 사용하는 경우 Delta Sharing을 어떻게 활용할 수 있나요?

네, Delta Sharing은 Apache Iceberg와 완벽하게 호환됩니다. Delta Sharing을 선택함으로써 Apache Iceberg를 데이터 소스 및 대상으로 원활하게 사용하여 가장 광범위한 협업 에코시스템에 액세스하는 동시에 Delta Sharing의 모든 기능을 활용하는, 두 가지 장점을 모두 누릴 수 있습니다.

Delta Sharing은 Iceberg에서 공유를 핵심적인 기본 기능으로 만듭니다. 개방형 수신자가 맞춤형 IdP로 인증할 수 있게 해주는 OIDC 토큰 페더레이션, 네트워크 구성을 간소화하고 확장하는 Network Gateway와 같은 고유한 기능을 통해 고객은 모든 테이블 형식에서 완전한 상호 운용성을 확보할 수 있습니다.

Unity Catalog에서 관리되는 테이블은 이제 Snowflake, Trino, Spark와 같은 Iceberg 클라이언트와 공유할 수 있습니다. 또한 Hive Metastore 또는 AWS Glue와 같은 카탈로그에서 관리하는 외부 Iceberg 테이블을 Unity Catalog로 통합한 다음 동일한 프로토콜을 통해 공유할 수 있습니다. 두 경우 모두 Unity Catalog에 테이블을 등록하고 공유를 생성한 후 Databricks 내부 또는 외부의 관련 수신자를 추가합니다. 이를 통해 Iceberg 사용자는 데이터를 이동하거나 복제하지 않고도 거버넌스가 적용된 실시간 데이터를 사용하여 Databricks 고객과 협업할 수 있습니다.

4. Databricks 고객이 아닌 사용자와 데이터를 공유하는 데 Delta Sharing을 사용할 수 있나요?

네, 수신자가 Databricks 또는 다른 플랫폼을 사용하는지와 관계없이 모든 수신자와 데이터를 공유할 수 있습니다. Delta Sharing은 Databricks-to-Databricks 공유와 Open Sharing 모두에서 작동하는 개방형 프로토콜입니다. Delta Sharing은 Apache Spark 커넥터, Pandas 커넥터, Iceberg Rest Catalog 커넥터는 물론 PowerBI, Tableau, Excel 커넥터를 포함하여 수신자가 모든 플랫폼에서 사용할 수 있는 개방형 커넥터를 제공합니다. 개방형 공유를 사용하면 테이블뿐만 아니라 뷰, 파티션, 변경 데이터 피드도 공유할 수 있으므로 외부에서 공유하는 경우에도 Data Sharing 환경을 최적화할 수 있습니다.

5. 왜 Delta Sharing을 사용해야 하나요? 어떤 문제를 해결하나요?

저희는 수천 명의 고객이 Delta Sharing을 사용하는 방식을 살펴보고 비즈니스에 실질적인 차이를 만드는 네 가지 주요 방법을 발견했습니다.

사용 사례설명고객/파트너 사례
내부 공유회사 내 여러 사업부와 클라우드에 걸쳐 있는 데이터 사일로를 해소합니다.Mercedes-Benz 는 이를 사용하여 글로벌 팀을 위한 통합 데이터 메시를 생성합니다.
Peer-to-Peer 공유파트너, 공급업체, 고객과 안전하게 협업합니다.Procore 는 고객에게 분석을 위한 중요한 프로젝트 데이터에 대한 직접적인 액세스를 제공합니다.
제3자 데이터 라이선싱외부 데이터 및 AI 모델 라이선싱 및 통합.S&P Global 은 Databricks Marketplace에서 시장 인텔리전스 데이터세트를 제공합니다.
SaaS 애플리케이션 공유다양한 SaaS 애플리케이션에 잠겨 있는 데이터에 연결.Oracle Autonomous Database는 Oracle Fusion Data Intelligence와 함께 이제 Databricks 및 다른 플랫폼과 안전하고 원활하게 데이터를 공유할 수 있습니다.

6. 이미 SFTP, S3, Dropbox 또는 이메일을 사용하여 데이터를 공유하고 있는데, 왜 Delta Sharing이 필요한가요?

아직도 SFTP, S3, Dropbox 또는 이메일로 데이터를 공유하고 있다면 조직을 불필요한 위험과 비효율에 노출시키는 것입니다. 공격자가 SFTP의 취약점을 악용하여 약 400GB의 민감한 데이터를 탈취당한 Finastra 사례 를 살펴보세요.

그러한 구식 방법들이 효과가 있을 수는 있지만, 시대에 뒤떨어지고 불안정합니다. 결국 전체 파일을 복사하고, 만료되지 않는 정적 암호나 키를 관리하고, 동기화되지 않은 수많은 복사본을 만들어 중대한 보안 및 규정 준수 격차를 초래하게 됩니다. Delta Sharing은 이 모든 것을 현대적이고 안전하며 감사 가능한 접근 방식으로 대체합니다. 다른 사용자에게 필요한 특정 테이블, 행 또는 열(AI 모델 포함)만 공유할 수 있으며, 데이터를 가져오는 사람은 추가 사본이 없기 때문에 항상 최신 버전을 보게 됩니다.

보안도 더 강화되었습니다. Delta Sharing은 정적 비밀번호나 액세스 키를 전달하는 대신 수명이 짧은 토큰을 전달하며, 이미 사용 중인 ID 시스템에 연결할 수 있으므로 별도의 자격 증명 세트를 관리할 필요가 없습니다. 누군가 데이터를 볼 때마다 Unity Catalog에 로그인되므로 감사 및 규정 준수가 훨씬 쉬워집니다.

민감한 데이터를 보호하고 협업을 간소화하는 데 진지하게 임하고 있다면, Delta Sharing은 '있으면 좋은 것'이 아니라 오늘날 안전한 데이터 교환의 기본입니다.

Databricks Built-On 파트너인 Kythera Labs가 Delta Sharing을 사용하여 연간 200만 달러 이상을 절약하는 방법을 확인해 보세요.

7. Delta Sharing을 사용하여 어떤 종류의 자산을 공유할 수 있나요?

Delta Sharing을 사용하면 거의 모든 종류의 데이터나 AI 자산을 공유할 수 있으며, 이러한 폭넓은 지원은 매우 독보적입니다. 여기에는 테이블(및 테이블 파티션), 스트리밍 테이블, 관리형 Iceberg 테이블, 외부 스키마 & 테이블, 뷰(행/열 필터링을 위한 동적 뷰 포함), 구체화된 뷰, 볼륨, 노트북 및 AI 모델 이 포함됩니다. 전체 스키마(데이터베이스)를 공유하는 경우 그 안의 모든 것(테이블, 뷰, 볼륨, 모델)이 즉시 공유되며, 나중에 추가되는 모든 새로운 자산도 수신자가 사용할 수 있게 됩니다. 이 모든 자산이 단일 Unity Catalog metastore에 연결되어 공유가 깔끔하고 체계적으로 유지됩니다.

8. 제공자가 수신자와 데이터를 공유할 때 Delta Sharing은 어떻게 데이터를 안전하게 보호하나요?

Delta Sharing은 제로 트러스트, 토큰 기반 접근 방식을 사용합니다. 누군가 데이터를 요청하면 공유 서버는 Unity Catalog를 확인한 다음 스토리지로 바로 연결되는 수명이 짧은 읽기 전용 토큰이나 사전 서명된 URL을 제공합니다. 따라서 영구적인 비밀번호가 공급자를 벗어나는 일은 절대 없습니다. 모든 트래픽은 TLS 암호화로 래핑되며 모든 요청은 감사를 위해 Logs됩니다. Databricks 간 공유에서는 핸드셰이크가 자동으로 처리됩니다. 외부 사용자는 간단한 자격 증명 파일이나 OIDC 페더레이션을 통해 인증할 수 있지만, 동일한 임시 토큰, 암호화 및 완전 감사 모델이 적용됩니다. 이를 통해 적합한 사람만 제한된 시간 동안 적합한 데이터를 볼 수 있습니다. 자세한 내용은 Delta Sharing으로 안전한 엔드투엔드 협업을 지원하는 방법 을 읽어보세요.

9. 좋습니다. Delta Sharing 사용 시 비용은 어떻게 되나요?

Delta Sharing을 시작하는 데에는 비용이 전혀 들지 않으며, 데이터 세트 또는 AI 모델을 설정, 구성 또는 공유하는 데 요금이 부과되지 않습니다. 누군가 데이터를 실제로 쿼리하는 경우에만 요금이 청구되며, 이 경우에도 수수료는 세 가지 명확한 항목으로 분류됩니다.

첫째, compute 비용 (query 실행에 필요한 처리 능력)은 일반적으로 query를 실행하는 사람이 지불하지만, 더 합리적이라고 판단되는 경우 데이터 소유자가 부담하도록 선택할 수 있습니다.

둘째, 공급자의 클라우드에서 데이터를 내보내는 데 드는 이그레스 비용 이 있습니다. 새로운 R2 모드 (현재 GA)는 '제로 이그레스' 옵션까지 제공하므로 해당 요금을 완전히 피할 수 있습니다.

셋째, 스토리지 비용 은 복제된 사본을 유지하기로 결정한 경우에만 문제가 되며, 실시간 즉석 액세스에는 추가 공간이 필요하지 않습니다.

Databricks 간 공유 예시는 다음과 같습니다. AWS의 공급업체가 Azure의 소매업체에 구체화된 뷰를 공유한다고 가정해 보겠습니다. 데이터가 공유되면 공급업체는 AWS를 나가는 데이터에 대한 송신(egress) 비용을 지불하고, 소매업체가 공유 데이터에 대해 query를 실행하면 해당 query에 대한 compute 비용을 지불합니다.

10. Delta Sharing 사용을 시작하려면 무엇이 필요한가요?

요구사항은 Databricks 수신자와 공유하는지 또는 비 Databricks 수신자와 공유하는지에 따라 다릅니다.

외부 공유를 활성화해야 하며, 조직은 거버넌스와 잠재적인 클라우드 간 이그레스 비용을 추적해야 합니다.

시작할 준비가 되셨나요?

보안, Delta Sharing이 Clean Rooms 및 Databricks Marketplace와 같은 제품을 지원하는 방법, 기타 고급 기능 등의 주제를 다룰 다음 질문 시리즈를 기대해 주세요.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요