Delta Live Tables(DLT)は、信頼性の高いバッチとストリーミングデータのパイプラインの構築と管理を容易にし、Databricks のレイクハウスプラットフォームに高品質データを供給します。また、宣言型パイプラインの開発、データ検証の自動化、監視とリカバリのための深い視覚化が、データエンジニアリングチームによる ETL の開発と管理をシンプルにします。

データパイプラインの構築・維持を容易に
Delta Live Tables では、データソース、変換ロジック、データの状態を指定することで、SQL または Python でエンドツーエンドのデータパイプラインを容易に定義できます。サイロ化したデータ処理ジョブを手動でつなぎ合わせる必要はありません。パイプラインにおけるデータの依存関係を自動的に維持し、環境を問わないデータ管理で ETL パイプラインを再利用します。バッチまたはストリーミングモードで実行し、テーブル毎に増分または完全なコンピューティングを指定できます。

データ品質を自動チェック
Delta Live Tables は、高品質なデータを提供し、ダウンストリームのユーザーによる正確かつ有用な BI、データサイエンス、機械学習の実行を支援します。検証と整合性チェックにより、品質の低いデータのテーブルへの流入を防止し、事前に定義されたエラーポリシー(データの失敗、ドロップ、アラート、隔離)を使用して、データ品質のエラーを回避できます。また、データ品質の傾向を時系列に監視して、データの進化や、変更が必要な箇所についての気づきを得ることもできます。

効率的なコンピューティング自動スケーリングによる費用対効果の高いストリーミング
Delta Live Tables の拡張オートスケーリングは、突発的で予測不可能なストリーミングワークロードを処理するために設計されています。エンドツーエンドの SLA を維持する一方で、必要な数のノードまでスケールアップするだけでクラスタの使用率を最適化し、使用率が低い場合はノードを正常にシャットダウンして不要なコストを回避します。

パイプラインの状況を詳細に把握
パイプラインの運用状況やデータリネージュを視覚的に追跡できるツールが利用できます。自動エラー処理とリプレイ機能でダウンタイムを短縮し、シングルクリックのデプロイメントとアップグレードでメンテナンスが効率化します。
Shells trusts Delta Live Tables
「シェルでは、統合されたデータストアに全センサーデータを集積しており、処理対象のレコード数は数兆の規模になります。Delta Live Tables によって大規模なデータ管理の負荷が低減し、AI エンジニアリングの生産性が高まっています。Databricks は、既存のレイクハウスアーキテクチャを強化する機能で、ETL やデータウェアハウス市場に破壊的イノベーションをもたらしています。このことは私たちのような企業にとって大きな意味があります。今後もイノベーションパートナーとして Databricks との連携を継続していきたいと思います。」
ダン・ジーボンズ氏
ユースケース
バッチ/ストリーミングの ETL を一元化
自動更新の設定を適用してバッチおよびストリーミングのパイプラインを 1 か所で構築・実行することで、所要時間を短縮し、運用負荷を軽減します。レイクハウスでのデータストリーミングには、Delta Live Tables を使用して ETL をストリーミングすることから始めるのが最適です。
データパイプラインのデプロイメントとテストをシンプルに
複数の異なるデータコピーを単一のコードベースで更新できるため、データリネージュ情報が保持され、あらゆるデータを最新状態に保ちます。そのため、同一のクエリ定義セットを開発、ステージング、本番環境で実行できます。
規制要件への対応
分析・監査のためのテーブルに関するあらゆる情報をイベントログに自動保存。組織におけるデータフローを明確化してコンプライアンス要件を満たします。