あらゆるクラウド、ベンダー、フォーマット間でデータ、モデル、エージェント、スキルを共有するための、業界初のオープンプロトコル
によって Huey Han, ハリシュ・ガ ウル, アクラム・チェティビ 、 陳萌熙 による投稿
Databricksが2021年にDelta Sharingを発表したとき、私たちはすべてのデータチームが痛感していた課題、つまり組織の境界を越えてライブデータを共有することは遅く、脆弱で、妥協に満ちているという問題の解決に乗り出しました。データをコピーして古いレプリカを作成し、コンプライアンスの悩みの種を増やすか、あるいは自分と同じプラットフォーム上のパートナーとの共有だけに制限され、イノベーションを大幅に阻害するかのどちらかでした。
Delta Sharingがそれを変えました。単一のオープンプロトコル。データのコピーは不要。プラットフォームのサイロもありません。そしてそれ以来の5年間で、これは最も広く採用されているオープンなゼロコピーデータ共有プロトコルとなり、28,000以上のデータ受信者を抱え、共有の33%がオープンコネクタを介してプラットフォームを越えて流れています。SAP、Atlassian、Mercedes-Benz、The Trade Desk、LSEG、S&P Globalなどの大手企業をはじめ、多くの企業がデータの共有とコラボレーションにDelta Sharingを採用しています。
しかし、世界は進歩しています。エージェンティックAIの台頭により、企業が共有すべきものが根本的に変わりました。本日、私たちは次の一歩を踏み出します。
Delta Sharingの次なる進化であり、エージェンティック時代のために構築された業界初のオープンプロトコルであるOpenSharingを発表できることを嬉しく思います。OpenSharingはDelta Sharingを独立したオープンソースプロジェクトへと進化させ、その範囲をデータ共有から、モデルやエージェントといったAIスタック全体へと拡大します。これは、あらゆるクラウド、あらゆるベンダー、あらゆるフォーマットに対応します。

Delta Sharingは、テーブルとファイルの時代に向けて構築されました。しかし現在、組織はクラウド、ベンダー、企業の境界を越えて、セマンティックコンテキスト、AIスキル、非構造化データ、自律型エージェントを交換する必要があります。今日の共有プロトコルは依然としてベンダー固有のフォーマットに縛られており、AIロジックを処理できず、新しいパートナーごとに設定するのに数週間かかる脆弱なネットワークに依存しています。
その結果、コラボレーションは停滞し、データのサイロ化が続き、企業データに秘められた価値が引き出されないままになってしまいます。
OpenSharingはこれを解決します。これは、あらゆるフォーマット、あらゆるクラウド、あらゆる組織の境界を越えてデータとAIを共有する単一のオープンプロトコルです。Delta Lake、Apache Iceberg、Parquetをネイティブにサポートしているため、データは元の場所に置いたまま、必要とする人へと流すことができます。
「Delta Sharingは、業界が囲い込みよりもオープンを選択することを示しました。OpenSharingはその原則をAIスタック全体に拡張すると同時に、クロスプラットフォームのエコシステムをIcebergの受信者やオンプレミスのプロバイダーにまで広げます。エージェンティック時代にはオープンな基盤が必要であり、OpenSharingはそれを提供します」 — Databricks 共同創業者兼CTO、Matei Zaharia
OpenSharingは2つのレイヤーで存在します。オープンソースプロトコル(現在はLinux Foundationがホスト)は、あらゆるベンダーやコミュニティメンバーが実装できる公開仕様です。Databricks OpenSharingは、このオープンプロトコルの企業向け実装であり、ガバナンスと監査ログのためのUnity Catalogや、検出可能性を高めるMarketplaceなど、他のDatabricks機能をベースに構築されています。
DatabricksにおけるOpenSharing向けの一連の機能をリリースできるこ とを嬉しく思います。
組織は初めて、データセットだけでなく、ガバナンスの効いたAI体験を組織の境界を越えて共有できるようになります。
Genieエージェントは、DatabricksのAI搭載型対話式分析環境です。OpenSharingを使用することで、プロバイダーはGenieエージェント(その基盤となるセマンティックコンテキスト、ビジネスメトリクス、再利用可能なAIロジックを含む)を、Unity Catalogによるエンドツーエンドのガバナンスのもとで、任意のパートナーや顧客と共有できるようになります。オプションとして、プロバイダーは受信者のデータアクセス方法を制御できます。これには、独自のGenie指示の非表示、データアクセスをGenieエージェントのみに制限、1日のプロンプトクォータの設定、行のエクスポート制限の上限設定などが含まれます。これらの制御により、データプロバイダーは、完全なデータライセンスの代わりに、従量課金制の価格設定など、新たな収益化の機会を得ることができます。

クラウドをまたぐデータ共有には、常に2つの明確な課題がありました。DatabricksのOpenSharingは、その両方を解決します。
1つ目はネットワークです。プロバイダーのストレージがプライベートネットワークの背後にある場合(機密データのやり取りや規制対象の業界ではほぼ常にそうです)、新しい受信者をオンボーディングするには、手動でのIP許可リスト登録、ファイアウォールの調整、クラウド管理者とのやり取りに数週間かかることがあります。数十、数百の受信者を抱えるプロバイダーにとって、これではスケールしません。SecureConnectはこの問題を解決します。すべての受信者に代わってストレージアクセスをルーティングする、Databricks管理のプロキシです。一度設定すれば、受信者ごとのファイアウォール変更は二度と必要ありません。発表ブログをお読みください。

2つ目はエグレスコストです。クラウドをまたぐクエリは、規模に応じて累積するエグレス料金を発生させ、大きな予測不可能なコストとなり、広範なマルチクラウド共有を経済的に不可能なものにします。グローバル配信は、リージョン間およびクラウド間の自動レプリケーションによってこれを解決します。受信者はローカルレプリカにクエリを実行するため、高速で、エグレス料金も発生しません。プロバイダーは 予測可能なコスト構造を維持でき、グローバルチームはソースデータがどこにあるかに関係なく、低遅延でアクセスできます。
OpenSharingは、データエコシステムは名ばかりではなく、実際に真にオープンであるときに繁栄するという確信に基づいて構築されています。つまり、パートナーがすでに使用しているフォーマット、ストレージシステム、クライアントをサポートすることを意味します。
ストレージエコシステム:どこにあっても、すべてを統制
すべての企業データがクラウドに移行できるわけではなく、また移行すべきでもありません。規制上の義務、データグラビティ、エッジの遅延、そして純粋な経済的理由により、世界で最も価値のあるデータの一部はオンプレミスにとどまります。OpenSharingはそこにアプローチします。
Databricks Storage Ecosystemは、OpenSharingを活用して、Databricks Data Intelligence Platformをオンプレミス、プライベートクラウド、エッジ環境に直接提供します。ストレージパートナーはOpenSharingサーバーを実装し、1バイトも移動することなくデータ資産をUnity Catalogに接続します。移行も重複も不要です。発表をお読みください。
ローンチパートナーには、MinIO(GA)、Everpure(プライベートプレビュー)、Qumulo(間もなくプライベートプレビュー )、VAST Data(間もなくプライベートプレビュー)が含まれ、Cohesity、Commvault、NetApp、Nutanixも年内に対応予定です。これらのパートナーは共同で、数百エクサバイトに及ぶ企業データを管理しています。
Icebergの相互運用性
Delta Sharingは、Databricks、Tableau、Power BI、Apache Spark、Snowflakeなど、すでに幅広いプラットフォームやコネクタでサポートされています。OpenSharingは新たにApache Iceberg REST Catalog APIのサポートを追加し、Iceberg互換のあらゆるクライアントとデータを共有できるようになりました。また、プロバイダーはAWS Glue、Hive Metastore、Snowflake Horizonなどの外部カタログのテーブルを共有することもでき、レプリケーションを行うことなく、外部データをガバナンスの効いたOpenSharingエコシステムに取り込むことができます。

Delta Sharingを成功に導いたのと同じシンプルさをベースに、OpenSharingはプロトコルを拡張し、AIアセットスタック全体をサポートします。
Databricksでのエンタープライズデプロイメントでは、SecureConnectとGlobal Distributionがこのフローの上に重なり、クロスクラウドのネットワーキングとレプリケーションを自動的に処理します。プロバイダーや受信者が共有データとやり取りする方法を変更する必要はありません。
(このブログ記事はAI翻訳ツールを使用して翻訳されています) 原文記事
ブログを購読して、最新の投稿を受信トレイにお届けします。