データ共有
用語集のトップページへデータ共有とは
データ共有とは、同じデータを複数のユーザーで利用できるようにすることです。増加し続けるデータは、あらゆる企業にとって重要な戦略的資産です。組織内外におけるデータ共有は、新たなビジネスチャンスを生み出すカギとなる技術です。外部データを利用するだけでなく、データを共有することで、パートナーとのコラボレーション、新たなパートナーシップの確立、データのマネタイズによる新たな収益源の確保が可能になります。従来のデータ共有ソリューション
SFTP(SSH File Transfer Protocol)やクラウドオブジェクトストレージなど、自社開発ソリューションを実現する技術が挙げられます。しかし、SFTP は多数のクライアントには十分に拡張できず、FTP サーバーにオフロードされたファイルしか提供できません。データ共有にオブジェクトストレージの署名済み URL を利用すると、クラウド型オブジェクトストレージサービスの帯域幅を拡張できますが、ある特定のクラウドベンダーにしか通用しません。商用/クローズドソースのデータ共有ソリューション
次に、Oracle、AWS Redshift、Snowflake など、ベンダー製品に組み込まれたデータ共有ソリューションがあります。これらのソリューションは、ファイルではなくテーブルを共有でき、製品内での利用は便利です。しかし、オープンではないため、異なるプラットフォームとのデータ共有はできません。オープンソース、最新のデータ共有ソリューション
オープンソースベースのソリューションには、商用ソリューションのようなベンダーロックインはありません。コミュニティが開発した一般的なオープンソースのデータ処理フレームワークとの統合など、多くのメリットがあります。また、オープンプロトコルにより、BI ツールなどの商用クライアントを容易に統合できます。Delta Sharing
Delta Sharing は、セキュアなデータ共有のための世界初のオープンプロトコルです。使用しているコンピューティングプラットフォームを問わず、組織内外でのデータ共有を容易にします。- ライブデータを直接共有:Delta Lake にある既存のライブデータを、他のシステムにコピーすることなく容易に共有できます。
- さまざまなクライアントに対応:データ受信者は、特定のコンピューティングプラットフォームを事前導入しなくても、Pandas、Apache Spark™、Rust、その他のシステムから Delta Sharing に直接アクセスできるため、データ送信における摩擦が軽減されます。
- セキュリティとガバナンス: Delta Sharing では、共有データセットへのアクセスの管理、追跡、監査を容易に行うことができます。
- スケーラビリティ:S3、ADLS、GCS などのクラウドストレージシステムを活用することで、大規模なデータセットを確実かつ効率的に共有できます。
Databricks が提供する Delta Sharing
Databricks のユーザーは、Delta Sharing を Unity Catalog にネイティブに統合できます。これにより、組織内外におけるデータ共有の効率化されたエクスペリエンスがもたらされます。管理者は、新たな CREATE SHARE SQL シンタックス、あるいは REST(Representational state transfer) API を用いてデータ共有を管理し、全てのアクセスを集中的に監査できます。また、データ受信者は、クラウド上のあらゆるプラットフォームからデータの利用が可能です。
オープンなエコシステムの Delta Sharing
オープンソースと商用パートナーの Delta Sharing のエコシステムは、日々拡大しています。データの場所を問わず、あらゆるユーザー間の容易なデータ共有が可能です。
Databricks が提供するデータ共有の詳細
こちらに登録すると、Databricks Delta Sharing へのプレビューアクセスとアップデートの最新情報をご入手いただけます。関連リソース
用語集のトップページへ