주요 컨텐츠로 이동
공지사항

에이전트 시대를 위한 Delta Sharing의 차세대 진화, OpenSharing을 소개합니다

클라우드, 벤더, 포맷에 구애받지 않고 데이터, 모델, 에이전트, 스킬을 공유할 수 있는 업계 최초의 개방형 프로토콜

작성자: Huey Han, 해리시 가우르, 아크람 체티비 , Mengxi Chen

Databricks가 2021년에 Delta Sharing을 처음 선보였을 때, 저희는 모든 데이터 팀이 너무나 잘 알고 있던 문제, 즉 조직의 경계를 넘어 실시간 데이터를 공유하는 작업이 느리고 취약하며 많은 타협이 필요했다는 문제를 해결하고자 했습니다. 데이터를 복사하여 최신 상태가 아닌 복제본을 만들고 컴플라이언스 문제를 겪거나, 동일한 플랫폼을 사용하는 파트너와만 공유하도록 스스로를 제한하여 혁신을 크게 저해할 수밖에 없었습니다.

Delta Sharing은 이를 변화시켰습니다. 단 하나의 개방형 프로토콜. 데이터 복사 없음. 플랫폼 사일로 없음. 그리고 그 후 5년 동안 Delta Sharing은 28,000개 이상의 데이터 수신자와 오픈 커넥터를 통해 플랫폼 간에 흐르는 공유의 33%를 차지하며 가장 널리 채택된 개방형 제로 카피(zero-copy) 데이터 공유 프로토콜이 되었습니다. SAP, Atlassian, Mercedes-Benz, The Trade Desk, LSEG, S&P Global 등 많은 선도적인 기업들이 데이터 공유 및 협업을 위해 Delta Sharing을 도입했습니다.

하지만 세상은 변했습니다. 에이전틱 AI(agentic AI)의 부상은 기업이 공유해야 하는 대상을 근본적으로 바꾸어 놓았습니다. 오늘, 저희는 다음 단계로 나아갑니다.

Delta Sharing의 다음 진화이자 에이전틱 시대를 위해 구축된 업계 최초의 개방형 프로토콜인 OpenSharing을 발표하게 되어 기쁩니다. OpenSharing은 Delta Sharing을 독립적인 오픈 소스 프로젝트로 발전시켜 데이터 공유에서 모델, 에이전트 등 전체 AI 스택으로 범위를 확장하며, 모든 클라우드, 모든 벤더, 모든 포맷을 지원합니다.

공유 프로토콜이 AI를 위해 진화해야 하는 이유

Delta Sharing은 테이블과 파일의 세계를 위해 구축되었습니다. 하지만 이제 조직은 클라우드, 벤더, 기업의 경계를 넘어 시맨틱 컨텍스트, AI 기술, 비정형 데이터, 자율 에이전트를 교환해야 합니다. 오늘날의 공유 프로토콜은 여전히 특정 벤더 전용 포맷에 종속되어 있고, AI 로직을 처리할 수 없으며, 새로운 파트너를 추가할 때마다 구성하는 데 몇 주가 걸리는 취약한 네트워킹에 의존하고 있습니다.

그 결과 협업이 느려지고 데이터 사일로가 지속되며, 기업 데이터 내에 갇힌 가치가 실현되지 못합니다.

OpenSharing은 이 문제를 해결합니다. 이는 모든 포맷, 모든 클라우드, 모든 조직 경계를 넘어 데이터와 AI를 공유하는 단일 개방형 프로토콜로, Delta Lake, Apache Iceberg, Parquet을 기본적으로 지원하므로 데이터가 원래 위치에 유지되면서 필요한 사람에게 원활하게 전달됩니다.

"Delta Sharing은 업계가 종속(locked-in) 대신 개방형을 선택할 것임을 증명했습니다. OpenSharing은 이 원칙을 전체 AI 스택으로 확장하는 동시에, 크로스 플랫폼 생태계를 Iceberg 수신자 및 온프레미스 제공업체로 확장합니다. 에이전틱 시대에는 개방형 기반이 필요하며, OpenSharing이 바로 이를 제공합니다." — Matei Zaharia, Databricks 공동 창립자 겸 CTO.

Databricks 기반 OpenSharing

OpenSharing은 두 개의 레이어로 존재합니다. 현재 Linux Foundation에서 호스팅하는 오픈 소스 프로토콜은 모든 벤더나 커뮤니티 구성원이 구현할 수 있는 공개 사양입니다. Databricks OpenSharing은 거버넌스 및 감사 로깅을 위한 Unity Catalog, 검색 가능성을 위한 Marketplace 등 다른 Databricks 기능을 기반으로 구축된 개방형 프로토콜의 엔터프라이즈 구현체입니다.

Databricks 기반 OpenSharing을 위한 다양한 기능 세트를 출시하게 되어 기쁩니다.

Genie Agent Sharing: 단순한 데이터가 아닌 거버넌스가 적용된 AI 경험 공유

최초로 조직은 단순한 데이터 세트뿐만 아니라 거버넌스가 적용된 AI 경험을 조직 경계를 넘어 공유할 수 있게 되었습니다.

Genie Agents는 Databricks의 AI 기반 대화형 분석 환경입니다. OpenSharing을 통해 제공업체는 이제 기본 시맨틱 컨텍스트, 비즈니스 메트릭, 재사용 가능한 AI 로직을 포함한 Genie Agents를 Unity Catalog를 통한 엔드투엔드 거버넌스와 함께 모든 파트너 또는 고객과 공유할 수 있습니다. 선택적으로 제공업체는 독점적인 Genie 지침 숨기기, 데이터 액세스를 Genie Agent로만 제한하기, 일일 프롬프트 할당량 설정, 행 내보내기 제한 캡 설정 등 수신자의 데이터 액세스 방식을 제어할 수 있습니다. 이러한 제어 기능을 통해 데이터 제공업체는 전체 데이터 라이선스 대신 사용량 기반 요금제와 같은 새로운 수익화 기회를 창출할 수 있습니다.

SecureConnect 및 Global Distribution: 더 간편해진 멀티 클라우드 네트워킹, 더 낮아진 송신(egress) 비용

클라우드 간 데이터 공유에는 항상 두 가지 고유한 문제가 있었습니다. 이제 Databricks 기반 OpenSharing이 이 두 가지를 모두 해결합니다.

첫 번째는 네트워킹입니다. 제공업체의 스토리지가 프라이빗 네트워크 뒤에 있는 경우(민감한 데이터 교환이나 규제 대상 산업의 경우 거의 항상 그렇습니다), 새로운 수신자를 온보딩하려면 수동 IP 허용 목록 작성, 방화벽 조정, 클라우드 관리자와의 커뮤니케이션에 몇 주가 걸릴 수 있습니다. 수십 또는 수백 명의 수신자가 있는 제공업체의 경우 이는 확장성이 떨어집니다. SecureConnect는 모든 수신자를 대신하여 스토리지 액세스 경로를 지정하는 Databricks 관리형 프록시로 이 문제를 해결합니다. 한 번만 구성하면 수신자별로 방화벽을 변경할 필요가 전혀 없습니다. 발표 블로그를 읽어보세요.

SecureConnect

두 번째는 송신(egress) 비용입니다. 클라우드 간 쿼리는 대규모로 누적되는 송신 수수료를 발생시켜, 광범위한 멀티 클라우드 공유를 경제적으로 비실용적이게 만드는 예측 불가능하고 상당한 비용이 됩니다. Global Distribution은 자동 교차 리전 및 교차 클라우드 복제를 통해 이 문제를 해결합니다. 수신자는 로컬 복제본을 쿼리하므로 송신 수수료 없이 빠르게 처리됩니다. 제공업체는 예측 가능한 비용 구조를 확보할 수 있습니다. 글로벌 팀은 원본 데이터의 위치에 관계없이 지연 시간이 짧은 액세스 혜택을 누릴 수 있습니다.

Open Client 상호 운용성 및 온프레미스 스토리지 생태계: 파트너가 있는 곳에서 파트너와 만나기

OpenSharing은 데이터 생태계가 이름뿐만 아니라 실제로도 진정으로 개방되어 있을 때 번창한다는 확신을 바탕으로 구축되었습니다. 즉, 파트너가 이미 사용하고 있는 포맷, 스토리지 시스템 및 클라이언트를 지원하는 것을 의미합니다.

스토리지 생태계: 데이터의 위치에 관계없이 모든 것을 거버닝

모든 기업 데이터를 클라우드로 마이그레이션할 수 있거나 마이그레이션해야 하는 것은 아닙니다. 규제 준수 요구 사항, 데이터 그래비티(data gravity), 에지 지연 시간 및 순수 경제적 요인으로 인해 세계에서 가장 가치 있는 데이터 중 일부는 온프레미스에 유지될 것입니다. OpenSharing은 이러한 데이터에도 도달합니다.
Databricks Storage Ecosystem은 OpenSharing을 기반으로 Databricks Data Intelligence Platform을 온프레미스, 프라이빗 클라우드 및 에지 환경에 직접 제공합니다. 스토리지 파트너는 OpenSharing 서버를 구현하여 단 1바이트도 이동하지 않고 데이터 자산을 Unity Catalog에 연결합니다. 마이그레이션도, 중복도 필요 없습니다. 발표 내용을 읽어보세요.
출시 파트너로는 MinIO(GA), Everpure(Private Preview), Qumulo(곧 Private Preview 제공), VAST Data(곧 Private Preview 제공)가 있으며, Cohesity, Commvault, NetApp, Nutanix는 올해 말까지 추가될 예정입니다. 이 파트너들은 통틀어 수백 엑사바이트에 달하는 기업 데이터를 관리하고 있습니다.

Iceberg 상호 운용성
Delta Sharing은 이미 Databricks, Tableau, Power BI, Apache Spark, Snowflake를 비롯한 다양한 플랫폼과 커넥터에서 지원되고 있습니다. 이제 OpenSharing에 Apache Iceberg REST Catalog API 지원이 추가되어 Iceberg와 호환되는 모든 클라이언트와 데이터를 공유할 수 있게 되었습니다. 또한 제공업체는 AWS Glue, Hive Metastore, Snowflake Horizon을 포함한 외부 카탈로그의 테이블을 공유할 수 있으므로, 복제 없이 외부 데이터를 거버닝된 OpenSharing 생태계로 가져올 수 있습니다.

Iceberg Sharing

OpenSharing 작동 방식

Delta Sharing을 성공으로 이끈 동일한 단순함을 바탕으로, OpenSharing은 프로토콜을 확장하여 전체 AI 자산 스택을 지원합니다.

  1. 데이터 제공업체는 Unity Catalog에서 공유(share)를 생성하여 공유할 데이터 세트, 모델, 에이전트 또는 Genie Agents를 정의하고 세분화된 액세스 권한을 설정합니다.
  2. 수신자는 안전한 자격 증명을 받아 Databricks를 사용하지 않고도 기존 도구, 클라우드 또는 Iceberg 클라이언트에서 직접 공유 데이터를 쿼리할 수 있습니다.
  3. Unity Catalog은 모든 액세스를 감사하고, 행 및 열 수준의 제어를 적용하며, 모든 공유 자산에 컴플라이언스 정책이 함께 적용되도록 보장하여 엔드투엔드 거버넌스를 시행합니다.
  4. 데이터는 절대 이동하지 않습니다. 수신자는 제공업체의 클라우드 스토리지에서 직접 실시간 데이터를 쿼리하므로 단일 진실 공급원을 보장할 수 있습니다.

Databricks의 엔터프라이즈 배포의 경우, 이 흐름 위에 SecureConnect 및 Global Distribution이 레이어로 추가되어 제공업체나 수신자가 공유 데이터와 상호 작용하는 방식을 변경하지 않고도 크로스 클라우드 네트워킹 및 복제를 자동으로 처리합니다.

OpenSharing을 시작할 준비가 되셨나요?

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

최신 게시물을 이메일로 받아보세요

블로그를 구독하고 최신 게시물을 이메일로 받아보세요.