LAKEFLOW SPARK DECLARATIVE PIPELINES

高信頼性データパイプラインを容易に構築

ETLのバッチとストリーミング処理が簡素化し、自動化による信頼性と質の高い組み込みデータが伴います。

トップチームはインテリジェントなデータパイプラインで成功を収めています

SQLでETLパイプラインを構築する方法を学ぶ

SQLを使用してバッチおよびリアルタイムETLパイプラインを構築します。データエンジニアリングのサポートは不要です。

読む

メリット

データパイプラインのベストプラクティス、コード化

必要なデータ変換を単に宣言するだけで、Spark Declarative Pipelinesが残りの部分を処理します。

効率的な取り込み

本番環境でのETLパイプラインの構築は、取り込みから始まります。Spark Declarative Pipelinesは、データエンジニア、Python開発者、データサイエンティスト、SQLアナリストのための効率的な取り込みを可能にします。DatabricksでApache Spark™がサポートする任意のソースからデータをロードします。バッチ、ストリーミング、またはCDCに関係なく。

インテリジェントな変換

たった数行のコードから、Spark Declarative Pipelinesはバッチまたはストリーミングデータパイプラインを構築し実行する最も効率的な方法を決定し、コストまたはパフォーマンスを自動的に最適化しながら複雑さを最小限に抑えます。

自動化された操作

Spark Declarative Pipelinesは、ベストプラクティスをコード化し、運用上の複雑さを自動化することでETL開発を簡素化します。Spark Declarative Pipelinesを使用すると、エンジニアはパイプラインインフラの運用と保守ではなく、高品質なデータの提供に集中できます。

機能

データパイプラインを簡素化するために構築

データパイプラインの構築と運用は難しいことがありますが、必ずしもそうである必要はありません。Spark Declarative Pipelinesは強力なシンプルさを備えて構築されているため、数行のコードだけで堅牢なETLを実行できます。

Sparkの統一されたAPIを活用して、Spark Declarative Pipelinesでは処理モードを簡単に切り替えることができます。

詳しく見る

Spark Declarative Pipelinesを使用すると、ストリーミングテーブルとマテリアライズドビューを含む全体のインクリメンタルデータパイプラインを宣言することで、パイプラインのパフォーマンスを簡単に最適化できます。

詳しく見る

Spark Declarative Pipelinesは、幅広いエコシステムのソースとシンクをサポートします。任意のソースからデータをロード - クラウドストレージ、メッセージバス、変更データフィード、データベース、エンタープライズアプリを含む。

詳しく見る

Expectationsを使用すると、テーブルに到着するデータがデータ品質要件を満たしていることを保証し、パイプラインの更新ごとにデータ品質に関する洞察を提供できます。

詳しく見る

データエンジニアリング用のIDEでパイプラインを開発し、コンテキストの切り替えを行わずに済みます。DAG、データプレビュー、実行の洞察を一つのUIで確認します。オートコンプリート、インラインエラー、診断機能を使って簡単にコードを開発します。

詳しく見る

その他の機能

統合ガバナンスとストレージ

Unity Catalogとオープンテーブルフォーマットの基礎的なレイクハウス基準に基づいて構築。

詳しく見る

サーバーレスコンピューティング

データ取り込みに対して最大5倍の価格/パフォーマンス向上と、複雑な変換に対する98％のコスト削減。

詳しく見る

タスクオーケストレーション

Apache Spark™のタスクを一連の別々のものとして手動で定義する代わりに、変換を定義し、Spark Declarative Pipelinesが正しい順序で実行されることを保証します。

詳しく見る

エラー処理と障害回復

データパイプラインの実行中に発生するエラーからのシームレスなリカバリ。

詳しく見る

CI／CDとバージョン管理

簡単に設定を指定して、開発、テスト、および本番環境のパイプラインを分離します。

詳しく見る

パイプラインの監視と観測性

データライニージ、更新履歴、データ品質レポートを含む組み込みの監視と観察機能。

詳しく見る

柔軟な更新スケジューリング

パイプラインの要件に応じて、遅延またはコストを簡単に最適化します。

詳しく見る

ユースケース

データパイプラインを効率化します

簡単にデータの整合性と一貫性を確保します

変更データフィードとデータベーススナップショットのAPPLY CHANGES APIを使用して、変更データキャプチャを簡素化します。Spark Declarative Pipelinesは自動的にSCDタイプ1と2の順序が逆のレコードを処理し、CDCの最も難しい部分を簡素化します。

無料トライアル

追加のツールなしで強力なリアルタイムのユースケースを解放します

自動更新の設定を適用してバッチおよびストリーミングのパイプラインを 1 か所で構築・実行することで、所要時間を短縮し、運用負荷を軽減します。ストリーミングデータで、アナリティクスと AI の精度とアクショナビリティを迅速に向上させることができます。

無料トライアル

データエンジニアリングのベストプラクティスをデータウェアハウジングの世界にシームレスに持ち込みます

Spark Declarative Pipelinesを使用すると、データウェアハウスのユーザーは、アクセス可能なSQLインターフェースを通じて宣言的ETLの全機能を利用できます。SQLアナリストを低コード、インフラフリーのデータパイプラインで強化し、ビジネスのための新鮮なデータを最小限のセットアップや依存関係で解放します。

無料トライアル