メインコンテンツへジャンプ

Delta Live Tables

高信頼性データパイプラインを容易に構築

Delta Live Tables(DLT) は Databricks データインテリジェンスプラットフォーム向けの宣言型 ETL フレームワークです。ストリーミングおよびバッチ ETL をシンプルにし、コスト効率を高めます。データに対して実行する変換を定義するだけで、DLT パイプラインがタスクのオーケストレーション、クラスタ管理、モニタリング、データ品質、エラー処理を自動的に管理します。

DLT flow

data ingestion

効率的なデータ取り込み

レイクハウスでの本番環境対応の ETL パイプラインの構築は、インジェストから始まります。DLT は、データエンジニア、Python 開発者、データサイエンティスト、SQL アナリストなど、チーム全体にとって簡単で効率的な取り込みを可能にします。DLT を使用すると、Apache Spark™ がサポートするあらゆるデータソースから Databricks にデータをロードできます。

「Delta Live Tables は、Auto Loader の機能を超えて、ファイルの読み込みをさらに簡単にしてくれるので、とても気に入っています。45 分でストリーミングパイプラインをセットアップできた時には、とても驚きました。」

Labelbox 社シニアデータエンジニア Kahveh Saramout 氏

data transformation

インテリジェント、コスト効率の高いデータ変換

DLT は、わずか数行のコードから、ストリーミングまたはバッチデータパイプラインの構築と実行の最も効率的な方法を決定し、複雑さを最小限に抑え、価格性能(Databricks の基準値の約 4 倍)を最適化します。

「Delta Live Tables によって大規模なデータ管理の負荷が低減し、AI エンジニアリングの生産性が高まっています。Databricks は、ETL とデータウェアハウス市場を変革しています。」

シェル社 データサイエンス部門ゼネラルマネージャー ダン・ジーボンズ氏

simple pipeline

パイプラインの容易な設定と維持

DLT パイプラインは、ETL 開発に内在する運用の複雑さをほぼすべて自動化することで、ETL 開発を簡素化します。DLT パイプラインにより、エンジニアはパイプラインの運用や保守よりも、高品質なデータの提供に集中することができます。DLT は次のことを自動的に処理します。

「動的スキーマ管理やステートフル/ステートレス変換などの複雑なアーキテクチャは、従来のマルチクラウドのデータウェアハウスアーキテクチャでは実装が困難でした。データサイエンティストもデータエンジニアも、スケーラブルな Delta Live Tables を使用することで、参入障壁なくそのような変更を実行できるようになりました。」

ジェットブルー社データサイエンス・アナリティクス部門シニアマネージャー Sai Ravuru 氏

dlt tco graph

次世代ストリーム処理エンジン

Spark 構造化ストリーミング は、ストリーミング DLT パイプラインを解放し、バッチ処理とストリーム処理のための統合 API を提供するコアテクノロジーです。DLT パイプラインは、Spark 構造化ストリーミング固有の 1 秒未満ののレイテンシと、記録的な価格性能を活用します。Spark 構造化ストリーミングを使用して、独自の高性能ストリーミングパイプラインを手作業で構築することもできますが、DLT パイプラインでは、運用上のオーバーヘッドを自動的に管理するため、価値創出までの時間の短縮、継続的な開発速度の向上、TCO の削減を実現します。

「DLT をスケールさせるために何もする必要はありませんでした。システムに多くのデータを与えると、それに対応します。使い始めてすぐに、私たちからのあらゆる要求に対応できるという確信が得られました。」

Honeywell グローバルソリューションアーキテクト Chris Inkpen 博士

Delta Live Tables パイプラインと Spark 構造化ストリーミングをパイプラインの比較

Spark Structured Streaming pipelines

DLT pipelines

Databricksデータインテリジェンスプラットフォームでの実行
Spark 構造化ストリーミングを搭載
Unity Catalog による統合
Databricks ワークフローによるオーケストレーション
クラウドストレージからメッセージバスまで、数十のソースから取り込む
データフローのオーケストレーション

手動

自動化

データの品質のチェックと保証

手動

自動化

エラー処理と障害回復

手動

自動化

CI/CDとバージョン管理

手動

自動化

コンピューティングの自動スケーリング

ベーシック

Lakehouse Platform Architecture

統合データガバナンスとストレージ

Databricks でのデータストリーミングは、データインテリジェンスプラットフォームの基本コンポーネントである Unity Catalog と Delta Lake を利用することを意味します。 Delta Lake は、ストリーミングデータとバッチデータの両方に対応するようゼロから設計された唯一のオープンソースストレージフレームワークで、未加工データを最適化できます。Unity Catalog は、あらゆるデータと AI 資産に対して、きめ細かく統合されたガバナンスを提供し、クラウド間でデータを発見、アクセス、共有するための一貫したモデルを提供します。また、Unity Catalog は、他の組織と容易かつセキュアにデータを共有するための業界初のオープンプロトコルである Delta Sharing をネイティブにサポートしています。

「Delta Live Tables と Unity Catalog の統合には、非常に興奮しています。この統合により、DLT パイプラインのデータガバナンスを効率化、自動化することができます。何百万ものイベントをリアルタイムでインジェストする際に、機密データとセキュリティの要件を満たすため、リスクモデリングと不正検出に関連する私たちのビジネスユースケースの可能性と強化の世界が広がっています。」

ブロック社ソフトエンジニアスタッフ Yue Zhang 氏

FAQ

DLT パイプラインは、ストリーミングテーブルとマテリアライズドビューの 2 つの基本的な構成要素でできています。これらはDelta Tables と Spark Structured Streaming の信頼性の高い標準に基づいて構築されています。

リソース