データエンジニアリング

数千万の本番ワークロードが日々 Databricks 上で実行されています

背景

Databricks レイクハウスプラットフォームは、バッチ/ストリーミングデータの取り込み、変換を容易にします。さらに、インフラの管理を自動化することで、信頼性の高い本番ワークフローのオーケストレーションを可能にします。また、Databricks は、データ品質の検証機能とソフトウェア開発のベストプラクティスをサポートしており、チームの生産性が向上します。

バッチ/ストリーミングの両方に対応

統合された API を備えた単一のプラットフォームでサイロを排除し、バッチ/ストリーミングデータの大規模な取り込み、変換、増分処理を可能にします。

運用負荷の軽減

Databricks は、インフラと本番ワークフローの運用コンポーネントを自動的に割り当てることで、ツールの運用管理の手間をなくします。したがって、ユーザーはデータに集中できます。

任意のツールを接続

レイクハウスプラットフォームのオープン性により、任意のデータエンジニアリングツールを使用したデータの取り込み、ETL/ELT、オーケストレーションが可能です。

レイクハウスプラットフォームが基盤

レイクハウスプラットフォームは、データ資産の構築と共有、一元管理を可能にし、高速で信頼性の高いデータソースを提供します。

背景

仕組み

データ取り込みの簡素化

ETL 処理の自動化

信頼性の高いワークフローのオーケストレーション

エンドツーエンドの観察・監視

次世代のデータ処理エンジン

ガバナンス、信頼性、性能を支える基盤

データ取り込みの簡素化

レイクハウスプラットフォームにデータを取り込み、分析、AI、ストリーミングアプリケーションを一元管理できます。オートローダは、スケジュールされたジョブや連続したジョブにおいて、クラウドストレージにロードされたファイルに対して増分処理を自動で行います。データの状態についての詳細を手動で管理する必要はありません。数十億規模の新しいファイルでもディレクトリにリストすることなく効率的に追跡し、ソースデータからスキーマを自動的に推測し、時間の経過とともにスキーマを進化させることも可能です。アナリストは COPY INTO コマンドを使用すると、SQL を介して Delta Lake へのバッチファイルの取り込みを容易に実行できます。

詳しく見る

Data Ingestion Code Graphic

ETL 処理の自動化

ETL 処理の自動化

取り込んだ未加工データは、分析や AI に利用できるように変換する必要があります。Databricks は、Delta Live Tables(DLT)により、データエンジニア、データサイエンティスト、アナリストに強力な ETL 機能を提供します。DLT は、バッチデータやストリーミングデータに ETL および ML パイプラインを構築する、シンプルな宣言型アプローチを使用した初の ETL フレームワークです。インフラ管理、タスクオーケストレーション、エラー処理やリカバリ、性能の最適化といった複雑な運用タスクを自動化します。エンジニアは DLT を使用することで、データをコードとして扱うことができ、テスト、監視、文書化などのソフトウェアエンジニアリングのベストプラクティスを適用し、信頼性の高いパイプラインを大規模に展開できます。

詳しく見る

信頼性の高いワークフローのオーケストレーション

Databricks Workflows is the fully managed orchestration service for all your data, analytics and AI that is native to your Lakehouse Platform. Orchestrate diverse workloads for the full lifecycle including Delta Live Tables and Jobs for SQL, Spark, notebooks, dbt, ML models and more. Deep integration with the underlying Lakehouse Platform ensures you will create and run reliable production workloads on any cloud while providing deep and centralized monitoring with simplicity for end users.

詳しく見る

信頼性の高いワークフローのオーケストレーション

エンドツーエンドの観察・監視

エンドツーエンドの観察・監視

レイクハウスプラットフォームによって、データと AI のライフサイクル全体が可視化されます。データエンジニアや運用チームは、本番ワークフローの健全性をリアルタイムで確認でき、データ品質の管理や、過去の傾向の把握も可能になります。Databricks Workflows では、本番ジョブと Delta Live Tables パイプラインの健全性や性能を追跡するデータフローグラフやダッシュボードにアクセスできます。また、イベントログが Delta Lake のテーブルとして公開されるため、性能、データ品質、信頼性のメトリクスをあらゆる角度から監視・可視化できます。

次世代のデータ処理エンジン

Databricks のデータエンジニアリングは、Apache Spark API と互換性のある次世代エンジン Photon を実装し、数千ノードの自動スケーリングに対応すると同時に、記録的な価格性能を実現しています。Spark 構造化ストリーミングにより、バッチおよびストリーム処理の単一の統合 API が提供されるため、コードの変更や新しいスキルの習得なしに、レイクハウスでのストリーミングを容易に導入できます。

詳しく見る

次世代のデータ処理エンジン

最先端のデータガバナンス、信頼性、性能

最先端のデータガバナンス、信頼性、性能

Databricks のデータエンジニアリングでは、レイクハウスプラットフォームの基本コンポーネントである Unity Catalog と Delta Lake のメリットを享受できます。Delta Lake は、ACIDトランザクションによる信頼性、スケーラブルなメタデータ処理、高速性能を提供するオープンソースのストレージフォーマットで、未加工データを最適化します。Unity Catalog と組み合わせることで、あらゆるデータと AI 資産に対するきめ細かなガバナンスを実現します。単一の一貫性のあるモデルを使用してクラウド全体でデータの発見、アクセス、共有ができるため、ガバナンスが簡素化されます。また、Unity Catalog は、他の組織と容易かつセキュアにデータを共有するための業界初のオープンプロトコル Delta Sharing をネイティブにサポートしています。

Live Tables
Lakehouse Plateform
Workflows

統合

データチームに最大限の柔軟性を提供します。Partner Connectテクノロジーパートナーのエコシステムを活用し、主要なデータエンジニアリングツールとシームレスに統合できます。例えば、Fivetran でビジネスクリティカルなデータを取り込み、dbt を使用してインプレースで変換し、Apache Airflow でパイプラインをオーケストレーションするといったことが可能です。

データインジェストと ETL

+ Apache SparkTM 互換クライアント

導入事例

ADP
アシュリオン導入事例

導入事例

Shell Logo
「ADP では、人事管理データをレイクハウスで統合されたデータストアに移行しています。Delta Live Tables は、品質管理を構築するのに役立ち、宣言型 API、SQL のみによるバッチとリアルタイムのサポートにより、チームはデータ管理の時間と労力を節約できました。」

ADP 最高データ責任者 Jack Berkowitz 氏

YipitData
アシュリオン導入事例

導入事例

Shell Logo
「Databricks Workflows は、データパイプラインの作成、実行、開始、修復を容易にします。これにより、アナリストがインフラ管理に煩わされることなく ETL プロセスの設計と改善をセルフサービスで行えるようになるため、お客さまにとって重要な知見の抽出が迅速化します。現行の Airflow パイプラインの Databricks Workflows への移行を予定しており、成果に大いに期待しています。」

YipitData シニアソフトウェアエンジニア Anup Segu 氏

関連リソース

あなたが必要とするリソースが、全てここに集約されています。画像

関連リソース一覧

データエンジニアリングにおける Databricks 活用のメリットとは?eBook や動画などの関連リソースが見つかります。

無料お試し・その他のご相談を承っております

Databricks SQL のガイド

AWSAzureGCP