メインコンテンツへジャンプ

データレイクハウス

Databricks 無料トライアル

データレイクハウスとは?

データレイクハウスとは、データレイクデータウェアハウス(DWH)の課題を解決するデータ管理における新たなオープンアーキテクチャです。わかりやすくいうと次世代のデータ管理システムのことです。データレイクハウスでは、従来から活用していた構造化データに加え、AI や機械学習の活用に欠かすことのできない非構造化データを柔軟に組み合わせて分析を行うことができます。

データレイクハウスでできること

データレイクハウスは新たなオープンシステムデザインによって構築されており、データウェアハウスと類似のデータ構造とデータ管理機能を、データレイクに使用される低コストのストレージに直接実装しています。データレイクとデータウェアハウスを単一のシステムに統合することで、データ部門が複数のシステムにアクセスする必要がなくなり、データ処理が迅速化します。さらに、データレイクハウスは、データサイエンス、機械学習、ビジネスアナリティクスのプロジェクトに利用できる、有用で最新のデータを組織に提供します。 データウェアハウスからデータレイク、レイクハウスへ、データストレージの革新

データウェアハウス(DWH)、データレイクとの違い

データレイクハウスの他に、データウェアハウス、データレイクといった似た言葉があります。3 つの違いをひとことでいうと、「扱うデータの種類の違い」です。データウェアハウスは処理された構造化データのみを扱い、データレイクは、非構造化データ、構造化データなどさまざまなデータを扱うことができます。データレイクハウスは、データウェアハウスとデータレイクの優れた要素を組み合わせたもので、多様なデータを柔軟に分析できる点が特長です。

違いについては、以下の記事で詳しく解説しています。
データレイクとデータウェアハウスとは?それぞれの強み・弱みと次世代のデータ管理システム「データレイクハウス」を解説

データレイクハウスを実現する主要テクノロジー

データレイクハウスは、次のような主要な技術の向上によって実現しました。

  • データレイクのためのメタデータレイヤー
  • データレイクで高性能な SQL 実行を可能にする新たなクエリエンジン設計
  • データサイエンスと機械学習ツールへの最適化されたアクセス

メタデータレイヤーは、オープンソースの Delta Lake のように、Parquet ファイルなどのオープンなファイル形式上に配置され、異なるテーブルバージョンに含まれるファイルを追跡して、ACID 準拠のトランザクションなどの豊富な管理機能を提供します。メタデータレイヤーにより、ストリーミングの I/O サポート(Kafka のようなメッセージパスは不要)、古いテーブルバージョンへのタイムトラベル、スキーマの適用と展開、データの検証など、データレイクハウスでの一般的な機能が有効になります。性能は、データウェアハウスが 2 層アーキテクチャで存在する重要な理由の 1 つであり、データレイクハウスを企業の主要なデータアーキテクチャにするための鍵です。低コストのオブジェクトストアを使用するデータレイクでは、これまでアクセスに時間がかかっていましたが、レイクハウスは新たなクエリエンジンの設計により、高性能な SQL 分析が可能になります。これらの最適化には、RAM/SSD でのホットデータのキャッシュ(より効率的な形式にトランスコードされる可能性があります)、クラスタの同時アクセスデータのデータレイアウトの最適化、統計やインデックスなどの補助的なデータ構造、最新 CPU でのベクトル化された実行が含まれます。データレイクハウスは、これらの技術が統合されることにより、一般的なデータウェアハウスに匹敵する性能(TPC-DS 基準)を実現します。データレイクハウスで使用されるオープンなデータ形式(Parquet など)により、 レイクハウスのデータへのアクセスが容易になります。データサイエンティストや機械学習エンジニアは、Parquet や ORC などのソースにすでにアクセスがある pandasTensorFlow、PyTorch、その他の DS/ML エコシステムにおける一般的なツールを使用できます。Spark DataFrames は、これらのオープンフォーマットに対応した宣言型のインターフェイスを提供し、さらなる I/O の最適化を可能にします。その他、データレイクハウスには、監査履歴やタイムトラブルなどの機械学習の再現性を高める機能も備わっています。データレイクハウスへの移行を支えるテクノロジーの進化については、CIDR レポート「レイクハウス:データウェアハウスと高度な分析を統合する新世代のオープンプラットフォーム」、またはリサーチペーパー「Delta Lake︓クラウドオブジェクトストアによる高性能ACID テーブルストレージ」で詳細をお読みいただけます。

データレイクハウスが登場するまでの経緯

以下では、データウェアハウスが使用されてきた背景とその課題、そしてデータレイクの誕生から、データレイクハウスに至った経緯を見ていきます。

データウェアハウスの課題

データウェアハウスはこれまで、意思決定支援や BI(ビジネスインテリジェンス)アプリケーションにおいて広く利用されてきており、これには長い歴史があります。しかし、データウェアハウスには、構造化データの処理には適しているが、非構造化・半構造化データの処理には適していないという問題があり、高速で多様なデータの大規模処理やコスト効率に課題がありました。

データレイクの課題

そこで、データサイエンスや機械学習用の安価なストレージで多様な形式の生データに対応するデータレイクが構築されました。データレイクはデータの格納には適していましたが、重要な機能が欠けており、トランザクションのサポートやデータ品質の保証がありません。一貫性と分離性の欠如により、アペンドと読み取り、バッチとストリーミングジョブを混在させることはほぼ不可能です。

DWH とデータレイクを組み合わせた 2 層アーキテクチャ

そのため、データ部門はデータレイクとデータウェアハウスのデータで BI や ML を実行可能にするために、これらのシステムをつなぎ合わせる必要がありました。しかしその結果、重複データ、余分なインフラコスト、セキュリティ上の課題、大きな運用コストが発生します。 2 層データアーキテクチャでは、まず、データは運用データベースからデータレイクに ETL されます。このデータレイクは、企業のデータを低コストのオブジェクトストレージに格納します。データは一般的な機械学習ツールと互換性のある形式で保存されますが、適切に整理、維持されていない場合がほとんどです。次に、重要なビジネスデータの小さなセグメントで ETL をもう一度実行し、BI やデータ分析のためにデータウェアハウスに格納します。 2 層アーキテクチャでは、ETL ステップが複数あるため、定期的なメンテナンスを必要とし、データが古くて使えない場合もあります。データアナリストとデータサイエンティストはこの問題に大きな懸念を抱いていることが、 KaggleとFivetran による最近の調査でわかっています。 2 層アーキテクチャの問題点については、以下の記事で詳しく解説しています。
レイクハウスによるデータレイク・データウェアハウスの統合

Databricks のデータインテリジェンスプラットフォーム

データと AI の民主化を推進する Databricks は、レイクハウスアーキテクチャをベースとして構築された、SaaS 型の統合データ分析プラットフォームである「データインテリジェンスプラットフォーム」を提供しています。データウェアハウスとデータレイクの両方のメリットを 1 つのプラットフォームに集約し、DWH、ETL、ストリーミングなどのデータ基盤の自在な利用を可能にします。

データインテリジェンスプラットフォームの特長
・データと AI のための詳細なガバナンスのサポート
・高信頼性、高処理能力を担保
・あらゆる種類のデータの効率的な処理

Databricks のデータインテリジェンスプラットフォームは、世界 7,000 社を超えるお客さまに採用され、金融サービス、需要予測、ESG スコアリング、品質管理など、さまざまな分野の多様なユースケースをサポートしています。

関連資料

用語集に戻る