バッチ処理とストリーム処理を組み合わせたアーキテクチャで、バッチ層で精度を、スピード層でリアルタイムの結果を得、そして両者を統合するサービング層で実現します。
によって Databricks Staff による投稿
ラムダアーキテクチャとは、膨大なデータ「ビッグデータ」を処理するアプローチです。ハイブリッドアプローチを使用してバッチ処理やストリーム処理メソッドへのアクセスを提供し、あらゆる関数の計算課題を解決するために活用されます。ラムダアーキテクチャは3つのレイヤーから構成されています。

新しいデータは、データシステムへのフィードとして継続的に提供されます。データはバッチレイヤーとスピードレイヤーに同時に供給されます。すべてのデータをまとめ て分析し、最終的にストリームレイヤー内のデータを補正します。ここでは、多くの ETL と従来型のデータウェアハウスを見つけることができます。このレイヤーは、通常 1 日に 1 回または 2 回、事前定義されたスケジュールを使用して構築されます。バッチレイヤーには、次の 2 つの重要な機能があります。
バッチビューの形式のバッチレイヤーからの出力と、ほぼリアルタイムビューの形でスピードレイヤーから出力されるデータは、このサービングレイヤーに転送されます。このレイヤーはバッチビューのインデックスを作成し、アドホックベースで低待機時間でクエリを実行できるようにします。
このレイヤーは、バッチレイヤーのレイテンシで処理できずバッチビューでまだ配信されていないデータを処理します。また、リアルタイムビューを作成して、最新データを処理し、ユーザーにより完全なリアルタイムビューを提供します。
ラムダアーキテクチャの主なメリットは次のとおりです。
Delta Lake: バッチ、ストリーミングソースおよびシンクの統合
1. ラムダアーキテクチャの目的は?
ビッグデータをリアルタイムとバッチの両方で処理し、正確かつ迅速な分析を可能にすることです。
2. 主要な構成要素は何ですか?
バッチレイヤー、スピードレイヤー(ストリームレイヤー)、サービングレイヤーの3層構造で 構成されます。
3. 課題は何ですか?
バッチとストリームの両処理を維持する必要があり、コードの複雑化やデバッグの難しさが挙げられます。
ブログを購読して、最新の投稿を受信トレイにお届けします。