メインコンテンツへジャンプ

データ共有(データシェアリング)

Databricks 無料トライアル

企業間におけるデータ共有とは

データ共有(またはデータシェアリング)とは、同じデータを複数のユーザーで利用できるようにすることです。増加し続けるデータは、あらゆる企業にとって重要な戦略的資産です。組織内外におけるデータ共有は、新たなビジネスチャンスを生み出すカギとなる技術です。外部データを利用するだけでなく、データを共有することで、パートナーとのコラボレーション、新たなパートナーシップの確立、データのマネタイズによる新たな収益源の確保が可能になります。

従来の企業間におけるデータ共有ソリューション

SFTP(SSH File Transfer Protocol)やクラウドオブジェクトストレージなど、自社開発ソリューションを実現する技術が挙げられます。しかし、SFTP は多数のクライアントには十分に拡張できず、FTP サーバーにオフロードされたファイルしか提供できません。データ共有にオブジェクトストレージの署名済み URL を利用すると、クラウド型オブジェクトストレージサービスの帯域幅を拡張できますが、ある特定のクラウドベンダーにしか通用しません。

商用/クローズドソースのデータ共有システム

次に、Oracle、AWS Redshift、Snowflake など、ベンダー製品に組み込まれたデータ共有ソリューションがあります。これらのソリューションは、ファイルではなくテーブルを共有でき、製品内での利用は便利です。しかし、オープンではないため、異なるプラットフォームとのデータ共有はできません。

最新のデータ共有ソリューション、オープンソース

オープンソースベースのソリューションには、商用ソリューションのようなベンダーロックインはありません。コミュニティが開発した一般的なオープンソースのデータ処理フレームワークとの統合など、多くのメリットがあります。また、オープンプロトコルにより、BI ツールなどの商用クライアントを容易に統合できます。

組織間でデータを安全に共有するための Delta Sharing

Delta Sharing は、Databricks が提供するセキュアなデータ共有のための世界初のオープンプロトコルです。使用しているコンピューティングプラットフォームを問わず、組織内外でのデータ共有を容易にし、次のようなメリットをもたらします。

  • ライブデータを直接共有Delta Lake にある既存のライブデータを、他のシステムにコピーすることなく容易に共有できます。
  • さまざまなクライアントに対応:データ受信者は、特定のコンピューティングプラットフォームを事前導入しなくても、Pandas、Apache Spark™、Rust、その他のシステムから Delta Sharing に直接アクセスできるため、データ送信における摩擦が軽減されます。
  • セキュリティとガバナンス: Delta Sharing では、共有データセットへのアクセスの管理、追跡、監査を容易に行うことができます。
  • スケーラビリティ:S3、ADLS、GCS などのクラウドストレージシステムを活用することで、大規模なデータセットを確実かつ効率的に共有できます。

Databricks が提供する Delta Sharing

Databricks のユーザーは、Delta Sharing を Unity Catalog にネイティブに統合できます。これにより、組織内外におけるデータ共有の効率化されたエクスペリエンスがもたらされます。管理者は、新たな CREATE SHARE SQL シンタックス、あるいは REST(Representational state transfer) API を用いてデータ共有を管理し、全てのアクセスを集中的に監査できます。また、データ受信者は、クラウド上のあらゆるプラットフォームからデータの利用が可能です。

 

Databricks が提供する Delta Sharing

 

オープンなエコシステムの Delta Sharing

オープンソースと商用パートナーの Delta Sharing のエコシステムは、日々拡大しています。データの場所を問わず、あらゆるユーザー間の容易なデータ共有が可能です。

 

Delta Sharing:オープンなエコシステム

 

Databricks が提供するデータ共有の詳細

データ分析や AI のためのオープンなデータ共有について詳しくご覧いただけます。また、無料トライアルやデモの視聴も可能です。  

関連資料

用語集に戻る