
Delta Live Tables(DLT)は、信頼性の高いデータパイプラインの構築と管理を容易にし、Delta Lake に高品質データを供給します。また、宣言型パイプラインの開発、データ検証の自動化、監視とリカバリのための深い視覚化が、データエンジニアリングチームによる ETL の開発と管理をシンプルにします。

データパイプラインの構築・維持を容易に
Delta Live Tables では、データソース、変換ロジック、データの状態を指定することで、エンドツーエンドのデータパイプラインを容易に定義できます。サイロ化したデータ処理ジョブを手動でつなぎ合わせる必要はありません。パイプラインにおけるデータの依存関係を自動的に維持し、環境を問わないデータ管理で ETL パイプラインを再利用します。バッチまたはストリーミングで実行し、テーブル毎に増分または完全なコンピューティングを指定できます。
データ品質を自動チェック
Delta Live Tables は、高品質なデータを提供し、ダウンストリームのユーザーによる正確かつ有用な BI、データサイエンス、機械学習の実行を支援します。検証と整合性チェックにより、品質の低いデータのテーブルへの流入を防止し、事前に定義されたエラーポリシー(データの失敗、ドロップ、アラート、隔離)を使用して、データ品質のエラーを回避できます。また、データ品質の傾向を時系列に監視して、データの進化や、変更が必要な箇所についての気づきを得ることもできます。
監視・容易なリカバリのための詳細な視覚化
運用状況やデータリネージュを視覚的に追跡できるツールを利用して、パイプライン運用の詳細を可視化できます。自動エラー処理と容易なリプレイでダウンタイムを短縮し、シングルクリックによるデプロイメントとアップグレードでメンテナンスを迅速化します。
ユースケース
規制要件への対応
分析・監査のためのテーブルに関するあらゆる情報をイベントログに自動保存。組織におけるデータフローを明確化してコンプライアンス要件を満たします。
データパイプラインのデプロイメントとテストをシンプルに
複数の異なるデータコピーを単一のコードベースで更新できるため、データリネージュ情報が保持され、あらゆるデータを最新状態に保ちます。そのため、同一のクエリ定義セットを開発、ステージング、本番環境で実行できます。
バッチとストリーミングの統合で運用の複雑さを軽減
自動更新の設定を適用してバッチおよびストリーミングのパイプラインを 1 か所で構築・実行することで、所要時間を短縮し、運用負荷を軽減します。
「シェルでは、統合されたデータストアに全センサーデータを集積しており、処理対象のレコード数は数兆の規模になります。Delta Live Tables により、大規模なデータ管理の負荷が低減され、 AI エンジニアリングの能力が高まっています。Databricks は、既存のレイクハウスアーキテクチャを補強するケイパビリティによって、ETL およびデータウェアハウス市場に破壊的イノベーションをもたらしています。このことは、私たちのような企業にとって大きな意味があります。今後もイノベーションパートナーとして Databricks との連携を継続したいと考えています。」
シェル社 データサイエンス部門ゼネラルマネージャー
ダン・ジーボンズ氏
無料お試し・その他のご相談を承っております

