背景

Delta Lake

データスワンプからの脱却とデータ加工の柔軟性をもたらす、次世代型データレイク/データウェアハウス

無料トライアルデモ動画を見る

Delta Lake 動画のサムネイル
背景

Delta Lake とは

Delta Lake is an open format storage layer that delivers reliability, security and performance on your data lake — for both streaming and batch operations. By replacing data silos with a single home for structured, semi-structured and unstructured data, Delta Lake is the foundation of a cost-effective, highly scalable lakehouse.

Delta Lake のアーキテクチャ

データスワンプからの脱却

Deliver a reliable single source of truth for all of your data, including real-time streams, so your data teams are always working with the most current data. With support for ACID transactions and schema enforcement, Delta Lake provides the reliability that traditional data lakes lack. This enables you to scale reliable data insights throughout the organization and run analytics and other data projects directly on your data lake — for up to 50x faster time-to-insight.

オープンでセキュアなデータ共有

Delta Sharing は、セキュアなデータ共有のための新しいオープンプロトコルです。データの場所を問わず、組織内外でのデータ共有を容易にします。Unity Catalog とのネイティブな統合により、組織間の共有データを一元的に管理、監視します。データアセットをベンダーやパートナーとセキュアに共有して連携を強化すると同時に、セキュリティおよびコンプライアンスの要件を満たします。また、主要なツールやプラットフォームとの統合により、任意のツールを使用した共有データの視覚化、クエリ、エンリッチメント、ガバナンスが可能です。

Delta Sharing のプロトコル

Delta Lake の超高速性能を示す棒グラフ

超高速性能

Apache Spark™ を基盤とする Delta Lake は、大規模なスケーリングと高速性を実現します。性能を左右するインデックス機能などの最適化により、ETL ワークロードが最大 48 倍高速化したことが実証されています。

オープン、アジャイル

Delta Lake のデータはオープンな Apache Parquet 形式で保存されるため、あらゆる互換リーダーで読み取ることができます。API はオープンで、Apache Spark と互換性があり、データパイプラインの変更は最小限ですみます。Databricks で Delta Lake を利用することで、オープンソースの広範なエコシステムへのアクセスが可能になり、独自形式によるデータのロックインを回避できます。

Delta Lake + The Linux Foundation ロゴ

データエンジニアリングの自動化と高信頼性

データエンジニアリングの自動化と高信頼性

Delta Live Tables が Delta Lake のデータを最新かつ高品質に保つデータパイプラインの構築・管理を容易にし、データエンジニアリングをシンプルにします。また、宣言型パイプラインの開発、高信頼性データ、クラウドスケールの本稼働環境がレイクハウス基盤の構築を可能にし、データエンジニアリングによる ETL の開発・管理をシンプルにします。

大規模運用のためのセキュリティとガバナンス

Delta Lake は、詳細なアクセス制御によりデータガバナンスを確実にしてリスクを軽減します。これは通常のデータレイクでは不可能です。データレイクのデータを迅速かつ正確に更新し、GDPR をはじめとする規制へのコンプライアンス、監査ログによる高度なデータガバナンスの維持を可能にします。これらのケイパビリティは、レイクハウス初のマルチクラウドデータカタログである Unity Catalog の一部としてDatabricks にネイティブに統合され、拡張されています。

Delta Lake パイプライン

ユースケース

リアルタイムデータによる BI

ビジネスインテリジェンス(BI)のワークロードをデータレイク上で直接実行することで、新鮮なリアルタイムデータの素早いクエリを可能にし、データドリブンな意思決定を加速させます。Delta Lake は、データウェアハウスの性能とデータレイクの経済性を同時に実現するマルチクラウドのレイクハウスアーキテクチャの運用を可能にします。SQL ワークロードの実行においては、従来のクラウド型データウェアハウスと比較して最大 6 倍の価格性能を発揮します。

詳しく見る→

バッチ/ストリーミングの両方に対応

Run both batch and streaming operations on one simplified architecture that avoids complex, redundant systems and operational challenges. In Delta Lake, a table is both a batch table and a streaming source and sink. Streaming data ingest, batch historic backfill and interactive queries all work out of the box and directly integrate with Spark Structured Streaming.

規制への対応

Delta Lake は、不正なデータの取り込み、コンプライアンスのためのデータ削除、変更データキャプチャのためのデータの変更といった課題を解決します。データレイクでの ACID トランザクションがサポートされているため、全操作を成功させるか、または、再実行に備えて全操作を完全に中断させます。データパイプラインを新たに作成する必要はありません。さらに、Delta Lake によって、全トランザクションの履歴がデータレイクに記録されます。過去のバージョンのデータに容易にアクセス可能にすることで、GDPR/CCPA などのコンプライアンス要件を満たします。

データインジェストのネットワーク

ネイティブのコネクタが、あらゆるアプリケーション、データベース、ファイルストレージからのデータを迅速・容易に Delta Lake に取り込みます。

導入事例

アイコン – タイトル

「Databricks の導入によって市場投入までの時間を短縮できました。分析や運用管理が効率化し、医療部門の新たなニーズに対応できるようになっています。」
ヘルスダイレクト・オーストラリア社
チーフアーキテクト ピーター・ジェームズ氏

詳しく見る→

アイコン – タイトル

「Databricks と Delta Lake を活用することで、組織内での大規模なデータ共有が可能になっています。さらに、本運用ワークロードの実行に伴うコストが 60% 低減し、数百万ドルのコスト削減を達成しました。」
YipitData 社 CTO スティーブ・ピュレック氏

詳しく見る→

アイコン – タイトル

「Delta Lake は、データパイプラインの運用をシンプルにする ACID 特性によって、パイプラインの信頼性とデータの一貫性を向上させます。また、キャッシングやインデックス自動作成などの機能が、効率的なデータアクセスを可能にします。」
コロンビアスポーツウェア社 シニアエンタープライズデータマネージャー
ララ・マイナー氏

詳しく見る→

アイコン – タイトル

「Delta Lake でデータパイプラインの管理がシンプルになりました。運用コストも低減し、ダウンストリームの分析とデータサイエンスによる気づきの発見がスピードアップしています。」
Viacom18 社 デジタル変革・技術部門アシスタント VP
パリヤット・デイ氏

詳しく見る→

関連リソース

あなたが必要とするリソースが、全てここに集約されています。画像

関連リソース一覧

データエンジニアリングにおける Databricks 活用のメリットとは?eBook や動画などの関連リソースが見つかります。

無料お試し・その他ご相談を承ります

Databricks 無料トライアルDelta Lake 関連のドキュメント